互联网 qkzz.net
全刊杂志网:首页 > 女性 > 文章正文
刊社推荐

基于VSM的文本相似度计算的研究


□ 郭庆琳 李艳梅 唐 琦

   (1. 华北电力大学 计算机科学与技术学院, 北京 102206; 2. 北京大学 计算机系, 北京 100871)

  

  摘要:文本相似度的计算作为其他文本信息处理的基础和关键,其计算准确率和效率直接影响其他文本信息处理的结果。提出改进的df算法和td-idf算法,一方面利用了df算法具有线性的时间复杂度,比较适合大规模文本处理的特点,并通过适当增加关键词的方法,弥补了其对个别有用信息错误过滤的不足;另一方面,利用特征项在特征选择阶段的权重对td-idf方法进行加权处理,在不增加开销的情况下扩大了文档集的规模,还提高了相似度计算的精确度。

  关键词:文本相似度; 特征选择; 词频—逆文档频率法; 向量空间模型

  中图分类号:tp391文献标志码:a

  文章编号:1001-3695(2008)11-3256-03

  

  similarity computing of documents based on vsm

  

  guo qing-lin1,2, li yan-mei1, tang qi1

  

  (1.school of computer science & technology, north china electric power university, beijing 102206, china; 2. dept. of computer science & technology, peking university, beijing 100871, china)

  

  abstract:the precision and efficiency of the computing of documents similarity is the foundation and key of other documents process. this paper improved the df and tf-idf arithmetic. in this way, df’s time complexity was linearity that suited the mass documents process, and could make up the fault that exceptional useful characters might be deleted. also, it did a mend on the tf-idf arithmetic to improve the precision of documents similarity.

......
很抱歉,暂无全文,若需要阅读全文或喜欢本刊物请联系《计算机应用研究》杂志社购买。
欢迎作者提供全文,请点击编辑
分享:
 

了解更多资讯,请关注“木兰百花园”
分享:
 
精彩图文


关键字
支持中国杂志产业发展,请购买、订阅纸质杂志,欢迎杂志社提供过刊、样刊及电子版。
关于我们 | 网站声明 | 刊社管理 | 网站地图 | 联系方式 | 中图分类法 | RSS 2.0订阅 | IP查询
全刊杂志赏析网 2017