互联网 qkzz.net
全刊杂志网:首页 > 女性 > 文章正文
刊社推荐

基于结构的e-mail挖掘算法:EHITS


□ 熊 金 刘 悦 白 硕

  摘要:在总结和分析Web网络中经典的链接分析算法(HITS算法)的基础上,提出了一种从邮件语料中发现全局权威人物的EHITS算法。首先,详细介绍了该算法中选取种子、扩展种子集和迭代计算的方法,并通过实验与其他方法进行了比较;最后,对该算法在安然邮件语料库上的实验结果进行评价。结果表明,该算法在邮件语料库中发现全局权威人物方面是非常有效的。
  关键词:电子邮件挖掘; 关系网络拓扑图; 权威; EHITS; 安然邮件语料库
  中图分类号:TP301.6文献标志码:A
  文章编号:1001-3695(2008)04-1171-04
  
  随着互联网的发展,电子邮件已成为一种重要的通信方式。人们早就认识到电子邮件的重要性,并对其进行了各种研究,如垃圾邮件过滤、社团发现和关键人物发现等[1~3]。
  从语料中发现关键人物已经越来越受到人们的关注。2005年TREC新增了一项专家发现任务,该任务的目的就是从W3C语料(主要是邮件语料)中发现与主题相关的专家或专家组。本文试图从结构的角度来解决这个问题,从复杂的邮件语料库中发现专家,寻找关键人物。根据应用不同,关键人物的定义也有所不同。本文定义的关键人物是全局意义上与主题无关的权威人物,也就是整个语料库中的关键人物。
  在传统的Web挖掘中,有两个经典的链接分析算法,即HITS和PageRank算法。HITS算法利用网页之间的链接关系来发现与主题相关的权威网页[4],它是一种针对局部关系的重要度计算方法,对每个主题都必须在线计算。PageRank算法也是利用网页之间的链接关系计算网页重要度[5],它是一种全局重要度的计算方法,目前主要应用于网页查询结果的排序。本文试图利用结构的信息来发现全局意义上的权威人物。实验发现,PageRank算法在该应用中效果不太理想,而HITS算法又无法直接应用于本文的问题。通过对HITS和PageRank算法的分析,笔者提出了一种基于结构的e-mail挖掘算法:EHITS。该方法在没有主题的情况下能够高效地发现全局权威人物,弥补了只从文本内容的角度进行人物分析的不足。
  
  1相关研究
  
  从文本内容的角度进行邮件分析的研究工作已有很多,主要集中在邮件分类方面。其中著名的工作有卡耐基—梅隆大学的Klimt和Yang[6,7]提出的基于SVM的邮件分类方法。他们详细分析了“From”“Body”“Subject”和“To .CC”四个域对分类效果的贡献,并考虑了三种组合方式,即独立域分析、等权值组合和线性组合(权值是训练出来的)。该方法在安然邮件语料库上的实验结果表明:From 和Body域对分类效果贡献大,To和CC域对分类效果贡献小,同时线性组合的效果要好于另外两种组合方式。除此之外,他们还探讨了利用Thread来提高分类效果的方法。 ......
很抱歉,暂无全文,若需要阅读全文或喜欢本刊物请联系《计算机应用研究》杂志社购买。
欢迎作者提供全文,请点击编辑
分享:
 

了解更多资讯,请关注“木兰百花园”
分享:
 
精彩图文


关键字
支持中国杂志产业发展,请购买、订阅纸质杂志,欢迎杂志社提供过刊、样刊及电子版。
关于我们 | 网站声明 | 刊社管理 | 网站地图 | 联系方式 | 中图分类法 | RSS 2.0订阅 | IP查询
全刊杂志赏析网 2017