互联网 qkzz.net
全刊杂志网:首页 > 女性 > 文章正文
刊社推荐

基于关联规则的文本聚类算法的研究


□ 曲守宁 王 钦 邹 燕 朱 强

  摘要:K-均值聚类算法是目前一种较好的文本分类算法,算法中的相似度计算通常基于词频统计,小文档或简单句子由于词频过小,使用该算法聚类效果较差。为此,提出了一种基于词语关联度的相似度计算算法,对简单文档集执行关联规则算法,得出基于关键词的关联规则,并根据这些规则求得词语关联度矩阵,然后由权重对文本进行文本特征向量表示,最后借助于关联度矩阵和文本特征向量,并按一定算法计算出句子相似度。实验证明该算法可得到较好的聚类结果,且其不仅利用词频统计的方法而且考虑了词语间的关系。
  关键词:文本挖掘; K-均值聚类; 关联规则; 权重
  中图分类号:TP311文献标志码:A
  文章编号:1001-3695(2008)04-0986-03
  
  0引言
  
  文本聚类[1]是一种有效的文本挖掘方法,能从大量文本数据中发现潜在的知识和规律。它不仅是知识获取技术,也是一种文本处理过程,它是一种典型的无指导的机器学习问题。
  把一个文档集分成若干称为簇的子集,每个簇中的成员之间具有较大的相似性,而簇与簇之间的文档具有较小的相似性。经典的文本聚类算法很多,其中K-均值聚类算法[2]是目前比较流行的一种基于划分的算法。该算法中文档相似度计算通常采用基于TF-IDF函数的cosine公式。其缺点是:a)算法效果与样本输入的次序和词频相关[3]。只有当句子包含的词数足够多时,相关的词才会重复出现,其效果才能体现出来,因此只适合于词频出现频率较多的大文档,对于表达较简单或较短的文档分类效果不佳。b)该方法只考虑了词在上下文中的统计特性,而没有考虑词本身的语义信息[4],因此具有一定的局限性。本文提出了一种基于关联规则的K-均值聚类算法,计算句子相似度时不仅使用TF-IDF函数而且结合词语间的关联度值,减少了相似度对于输入次序和频数的敏感度,有效地提高了小文档或者简单句子的聚类结果的准确度。
  
  1算法的流程设计
  
  基于关联规则的K-均值聚类算法模型采用了联合挖掘的思想,如图1所示。
  首先对文档集进行切词预处理,然后分两部分处理。第一部分对文档中每个词进行权重计算,根据权重进行文本特征向量表示;第二部分将每个文档视为一个事务,文档中的关键词组视为事务中的一组事务项,执行关联规则算法,得出基于词语的关联规则,并按照文中给出的算法求出词语间的关联度矩阵。由以上两部分结果和文中给出算法计算出句子间的相似度值,即可执行聚类算法得到几个簇的子集。在每个子集上再次执行关联规则算法,即将聚类算法作为关联规则的预处理,可以得出每个子集上的词语关联度,因此构成的关联度矩阵更加准确。这一步可执行n次,以不断提高聚类准确度。 ......
很抱歉,暂无全文,若需要阅读全文或喜欢本刊物请联系《计算机应用研究》杂志社购买。
欢迎作者提供全文,请点击编辑
分享:
 

了解更多资讯,请关注“木兰百花园”
分享:
 
精彩图文


关键字
支持中国杂志产业发展,请购买、订阅纸质杂志,欢迎杂志社提供过刊、样刊及电子版。
关于我们 | 网站声明 | 刊社管理 | 网站地图 | 联系方式 | 中图分类法 | RSS 2.0订阅 | IP查询
全刊杂志赏析网 2017