互联网 qkzz.net
全刊杂志网:首页 > 女性 > 文章正文
刊社推荐

结合LSA的中文谱聚类算法研究熊忠阳 暴自强 李智星 张玉芳


摘 要:传统的文本谱聚类需要的文本相似矩阵依赖于向量空间模型,忽略了词与词之间的语义关系,存在词频维数过高、计算代价高等问题。针对这些问题,提出了一种基于潜在语义分析(latent semantic analysis,LSA)的文本相似矩阵构造方法,利用奇异值分解(singular value decomposition,SVD)降维,在低维的语义空间表示文本,以此来提高同类文本间的语义相似度,并进行了相关对比实验。在该实验中,改进方法的聚类效果要好于传统的方法,从而验证了改进方法的有效性和可行性。
  关键词:文本聚类; 潜在语义分析; 奇异值分解; 谱聚类
  中图分类号:TP391 文献标志码:A
  文章编号:1001-3695(2010)03-0917-02
  doi:10.3969/j.issn.1001-3695.2010.03.030
  
  Research of Chinese spectral clustering with LSA
  
  XIONG Zhong-yang, BAO Zi-qiang, LI Zhi-xing, ZHANG Yu-fang
  
  (College of Computer Science, Chongqing University, Chongqing 400044, China)
  
  Abstract:Traditional text samples similarity matrix for spectral cluster heavily rely on the vector space model which ignores the semantic relationship among terms. It will give rise to problems such as curse of dimensionality, feature redundancy and high computing cost. To solve the problems above, this paper proposed a new method based on LSA to solve it, which used SVD to lowering rank of matrices. The experimental results turn out that the new method enhances the cluster accuracy and less the data-process elapsed time.
  Key words:text clustering; LSA; SVD; spectral cluster ......
很抱歉,暂无全文,若需要阅读全文或喜欢本刊物请联系《计算机应用研究》杂志社购买。
欢迎作者提供全文,请点击编辑
分享:
 

了解更多资讯,请关注“木兰百花园”
分享:
 
精彩图文


关键字
支持中国杂志产业发展,请购买、订阅纸质杂志,欢迎杂志社提供过刊、样刊及电子版。
关于我们 | 网站声明 | 刊社管理 | 网站地图 | 联系方式 | 中图分类法 | RSS 2.0订阅 | IP查询
全刊杂志赏析网 2017