互联网 qkzz.net
全刊杂志网:首页 > 大学学报 > 文章正文
刊社推荐

DKTC:一种中文文本聚类方法


□ 张义军 刘泉凤

  [摘要]在对DBSCN与K-means两种经典聚类算法分析研究基础上,结合中文文本数据的特点,对这两种方法进行结合与改进,提出一种中文文本聚类方法:DKTC。该算法能自动产生簇的个数,且对“噪声”或异常数据不敏感,对数据的输入顺序不敏感,另外,与DBSCAN相比,该算法有更高的处理效率。实验表明,DKTC算法不仅能对中文文本进行聚类,且与传统DBSCN与K-means法相比,聚类效果都有一定程度的改善。
  [关键词]文本聚类 聚类算法 中文信息处理
  [分类号]TP391
  
  1 引言
  
  文本聚类是一种无指导的文本分类,由于该项技术能将大量信息组织成少数有意义的簇,从而达到协助人们更好地对大规模文本进行理解,同时也能作为一种有效的预处理步骤,为进一步的文本分析提供初步的语料结构,因此,文本聚类技术作为文本信息挖掘技术中的核心技术,越来越受到广大研究者的重视。


  注:请下载安装 Acrobat Reader 软件后点击下面的链接阅读。

阅读PDF原文: 1 2 3 4 5 




......
很抱歉,暂无全文,若需要阅读全文或喜欢本刊物请联系《图书情报工作》杂志社购买。
欢迎作者提供全文,请点击编辑
分享:
 

了解更多资讯,请关注“木兰百花园”
分享:
 
精彩图文


关键字
支持中国杂志产业发展,请购买、订阅纸质杂志,欢迎杂志社提供过刊、样刊及电子版。
关于我们 | 网站声明 | 刊社管理 | 网站地图 | 联系方式 | 中图分类法 | RSS 2.0订阅 | IP查询
全刊杂志赏析网 2017