互联网 qkzz.net
全刊杂志网:首页 > 女性 > 文章正文
刊社推荐

基于本体及相似度的文本聚类研究


  摘 要:为了改善文本聚类的质量,得到满意的聚类结果,针对文本聚类忽略概念的内涵及缺少概念间的联系,设计和改进了基于本体和相似度的文本聚类方法TCBOS(text clusteringbased on ontology and similarity)。研究了文本预处理及分词的方法,设计了用有限状态自动机来自动提取概念和关系的方法,对概念语义扩展和相似度计算方法进行了改进和完善,通过应用本体的语义相似度来度量文档间相近程度,完善了根据相似度进行文本聚类的K中心点算法。实验证明,该方法从聚类的准确性和聚类的关联度方面改善了聚类质量,为文本的自动分析和推荐提供了一条途径。

  关键词:本体;相似度;文本聚类;语义

  中图分类号:TP311文献标志码:A

  文章编号:1001-3695(2010)07-2494-04

  doi:10.3969/j.issn.1001-3695.2010.07.026

  Study on text clustering based on ontology and similarity

  WANG Gang1,2,QIU Yu-hui2

  (1.Dept. of Electronic & Information Engineering, Ankang University, Ankang Shaanxi 725000, China;2.Semantic Grid Laboratory, South West University, Chongqing 400715, China)

  Abstract:To improve the quality of text clustering and get the satisfactory clustering results,this paper proposed a text clustering based on similarity and ontology(TCBOS).By organizing text as ontology,this paper were easy to represent the meanings and relations of concepts.This paper designed and improved the measurement of similarity and measured the text similarity by similarity of text ontology,designed the algorithm of text clustering based on similarity.Experiments show that the method can avoid using the term isolation and high-dimensional, and can improve the clustering quality in correction degree and association degree,it’s a way to analyze the text automatically.

......
很抱歉,暂无全文,若需要阅读全文或喜欢本刊物请联系《计算机应用研究》杂志社购买。
欢迎作者提供全文,请点击编辑
分享:
 

了解更多资讯,请关注“木兰百花园”
分享:
 
精彩图文


关键字
支持中国杂志产业发展,请购买、订阅纸质杂志,欢迎杂志社提供过刊、样刊及电子版。
关于我们 | 网站声明 | 刊社管理 | 网站地图 | 联系方式 | 中图分类法 | RSS 2.0订阅 | IP查询
全刊杂志赏析网 2017