互联网 qkzz.net
全刊杂志网:首页 > 女性 > 文章正文
刊社推荐

基于词出现和信息增益的连续属性离散化方法


□ 孙 挺 耿国华 周明全

  (1.西北大学 可视化研究所, 西安 710127;2.周口师范学院 计算机系, 河南 周口 466000;3.北京师范大学 信息科学与技术学院, 北京 100875)
  
  摘 要:连续属性的离散化是文本分类任务中数据预处理阶段的一项重要技术。针对机器学习领域中的诸多优秀算法只能处理离散属性的特点,提出一种基于词出现和信息增益相结合的多区间连续属性离散化方法(multiinterval discretization based on term presence and information gain,MTPIG)。并将MTPIG算法应用到了分类算法AdaBoost.MH中,给出实验结果及分析。实验结果表明,使用MTPIG算法处理文本分类中的数据,其过程简单高效,预测精度高,可理解性强。采用该算法离散化数据集后,分类算法的分类性能有所提高。
  关键词:连续属性的离散化;信息增益;文本分类
  中图分类号:TP31 文献标志码:A
   文章编号:10013695(2009)02048503
  
  Method of continuous attribute discretizationbased on term presence and information gain
  
  SUN Ting1,2,GENG Guohua1,ZHOU Mingquan3
  (1.Institute of Visualization Technology, Northwest University, Xi’an 710127, China;2.Dept. of Computer Science, Zhoukou Normal University, Zhoukou Henan 466000, China;3.College of Information Science & Technology, Beijing Normal University, Beijing 100875, China)
  Abstract:Discretization of continuous attributes is an important technology in data preprocessing stage of the text classification. On the issue that many algorithms with outstanding features could only deal with discrete attributes in the field of machine learning,this paper proposed a method of multiinterval discretization based on term presence and information gain(MTPIG). MTPIG was applied to AdaBoost.MH, a classification algorithm.Gave the experimental results and analysis.The results de-monstrate that the process,using MTPIG algorithm to preprocess the data in the text classification, is simple and efficient, accurate, strongly understandable, and the AdaBoost.MH performance has been improved by preprocessing.  ......
很抱歉,暂无全文,若需要阅读全文或喜欢本刊物请联系《计算机应用研究》杂志社购买。
欢迎作者提供全文,请点击编辑
分享:
 

了解更多资讯,请关注“木兰百花园”
分享:
 
精彩图文


关键字
支持中国杂志产业发展,请购买、订阅纸质杂志,欢迎杂志社提供过刊、样刊及电子版。
关于我们 | 网站声明 | 刊社管理 | 网站地图 | 联系方式 | 中图分类法 | RSS 2.0订阅 | IP查询
全刊杂志赏析网 2017