互联网 qkzz.net
全刊杂志网:首页 > 女性 > 文章正文
刊社推荐

一种改进的KNN Web文本分类方法


□ 吴春颖 王士同

   (江南大学 信息工程学院, 江苏 无锡 214122)

  

  摘要:KNN方法存在两个不足:a)计算量巨大,它要求计算未知文本与所有训练样本间的相似度进而得到k个最近邻样本;b)当类别间有较多共性,即训练样本间有较多特征交叉现象时,KNN分类的精度将下降。针对这两个问题,提出了一种改进的KNN方法,该方法先通过Rocchio分类快速得到k0个最有可能的候选类别;然后在k0个类别训练文档中抽取部分代表样本采用KNN算法;最后由一种改进的相似度计算方法决定最终的文本所属类别。实验表明,改进的KNN方法在Web文本分类中能够获得较好的分类效果。

  关键词:Web文本分类; K最近邻; 快速分类

  中图分类号:TP311文献标志码:A

  文章编号:1001-3695(2008)11-3275-03

  

  Improved KNN Web text classification method

  

  WU Chun-ying, WANG Shi-tong

  

  (School of Information Engineering, Jiangnan University, Wuxi Jiangsu 214122, China)

  

  Abstract:KNN method not only has large computational demands, because it must compute the similarity between unlabeled text and all training texts; but also may decrease the precision of classification because of the commonness of classes. This paper presented an improved KNN method, which solved two problems mentioned above. It firstly got the most k0 classes fast by Rocchio method, and then used KNN arithmetic in some representative training texts of theclasses, at last assigned class by an improved similar arithmetic in KNN. The result of research indicates that the impact of the new method is better.

......
很抱歉,暂无全文,若需要阅读全文或喜欢本刊物请联系《计算机应用研究》杂志社购买。
欢迎作者提供全文,请点击编辑
分享:
 

了解更多资讯,请关注“木兰百花园”
分享:
 
精彩图文


关键字
支持中国杂志产业发展,请购买、订阅纸质杂志,欢迎杂志社提供过刊、样刊及电子版。
关于我们 | 网站声明 | 刊社管理 | 网站地图 | 联系方式 | 中图分类法 | RSS 2.0订阅 | IP查询
全刊杂志赏析网 2017