互联网 qkzz.net
全刊杂志网:首页 > 女性 > 文章正文
刊社推荐

基于TF*IDF的垃圾邮件过滤特征选择改进算法


□ 陈 琦 伍朝辉 姚 芳 宋秀荣 张付志

  摘 要:随着电子邮件的普及与应用,垃圾邮件的泛滥也越来越受到人们的关注。而如何进行邮件特征选择,是邮件分类中的重要问题。在介绍词频和倒文档频度的基础上,对几种常用的特征选择算法进行了分析和比较,针对现有特征选择算法过于机械的缺点,将关键字权重引入到邮件分类中,提出了一种基于关键词权重的TF*IDF特征选择改进算法,并进行了实验验证。实验结果表明,采用该算法改进后的贝叶斯过滤器具有更好的过滤效果。
  关键词:垃圾邮件;过滤器;贝叶斯;特征选择;TF*IDF
  中图分类号:TP393.098文献标志码:A
  文章编号:1001-3695(2009)06-2165-03
  doi:10.3969/j.issn.1001-3695.2009.06.050
  
  Improved feature selection algorithm in spam filtering based on TF*IDF
  CHEN Qi, WU Zhao-hui, YAO Fang, SONG Xiu-rong, ZHANG Fu-zhi
  (College of Information Science & Engineering, Yanshan University, Qinhuangdao Hebei 066004, China)
  Abstract:With the development of network and computer, more and more spam e-mails affect our lives. This paper firstly introduced the current popular feature selection methods based on term frequency and inversed document frequency. Then it compared and analyzed the various feature extraction algorithms, and introduced a new extracted feature algorithm by using the advanced TF*IDF. Finally it completed the experimental verification with the PU1 corpus. The experiment results demonstrate that the advanced naive Bayes filter has better performance.
  Key words:spam;filtering;Bayes;feature selection;TF*IDF ......
很抱歉,暂无全文,若需要阅读全文或喜欢本刊物请联系《计算机应用研究》杂志社购买。
欢迎作者提供全文,请点击编辑
分享:
 

了解更多资讯,请关注“木兰百花园”
分享:
 
精彩图文


关键字
支持中国杂志产业发展,请购买、订阅纸质杂志,欢迎杂志社提供过刊、样刊及电子版。
关于我们 | 网站声明 | 刊社管理 | 网站地图 | 联系方式 | 中图分类法 | RSS 2.0订阅 | IP查询
全刊杂志赏析网 2017