互联网 qkzz.net
全刊杂志网:首页 > 女性 > 文章正文
刊社推荐

一种改进的回溯事件检测算法



  摘要:重点研究事件检测模型中层次聚类算法的改进,提出利用在关键词抽取基础上利用新闻的各种要素信息计算新闻之间相似度的方式,搭建了一个在线新闻检索系统,在其上利用新华社的新闻语料进行实验。实验结果表明改进方法的效果明显,性能较之未使用前有显著的提升。
  关键词:事件检测; 聚类; 关键词抽取
  中图分类号:TP301文献标志码:A
  文章编号:1001-3695(2008)05-1333-04
  
  近年来随着网络的普及,在网上浏览新闻已成为人们获得最新信息的最佳媒介之一。目前各大门户网站及主要的搜索引擎公司都提供了在线新闻阅读服务。Google和百度等网站还支持基本的新闻分类(如国内、国外、政治、体育等)浏览功能,用户可以通过这些服务浏览当日或者过去所发生的新闻。但是,由于新闻报道的更新频繁,其庞大的数据量使得用户常常有信息过量的感觉,很难快速准确地检索到高质量的新闻信息。除了简单的分类浏览以外,目前仍然没有进一步辅助用户阅读相对粒度更细的新闻事件的工具。新闻事件由于有多人同时撰述的特性,并没有一个公正客观的角度来描述特定的事件。而且,新闻记者采写同一事件的立场差异很大,切入角度也有所不同,再加上专业素质等原因,其所撰写的稿件内容可能与实际情况有所出入。这样,读者想要客观了解某一新闻事件,就必须多方阅读和比较,花费在新闻浏览与搜寻上的时间十分可观。
  新闻事件除必须掌握时效性以外,热点事件更需深入挖掘以及跟踪报道。此外由于篇幅所限,对同一事件的后续报道经常需要参考和引述之前的文章。一般来说,读者多根据现存报道加之回忆勾勒出事件的梗概,再在计算机中检索以获取历史报道。传统的检索方式需要用户对自己的查询需求有相当的理解。然而,如果用户对查询的需求比较模糊,如新闻编辑想知道过去一年国内农业领域都有哪些热点事件等,类似上述这样的需求,用户很难精确定义查询请求,仅仅依靠关键字检索无法满足要求。如果能根据新闻事件将某一主题的新闻文档进行汇整,对于提高新闻资料的利用价值和帮助新闻工作者改进效率,应有相当的助益。
  基于以上的理由,在分析了新闻内容的特点后,本文采用多维向量空间模型来表示新闻文档。在计算新闻之间相似度时综合考虑时间、类别和新闻具体内容等信息,并且利用关键字抽取对新闻文档进行预处理,简化了向量的维度。本文还借鉴层次聚类的思想实现对新闻事件的检测,使得新闻事件的粒度划分更加灵活和准确。
  
  1相关研究
  
  1.1关键词抽取
  在信息检索中,对于文件内容首先需要借由分词技术来分析文件,从而筛选出能代表该文件的特征词。本文所探讨的新闻文件是由中文描述。由于中文自身的特点,它不像英文那样在词与词之间有空格间隔,而且最近的研究表明,由新词导致的分词错误占到60%[1],加之中文字词的多样性,这些都给中文分词增加了相当的困难。对于新闻文件来说,新词的作用更是不可忽视。中文分词的方法可归纳为三种,即基于词典、基于统计和结合前两种方法的混合分词法[2]。 ......
很抱歉,暂无全文,若需要阅读全文或喜欢本刊物请联系《计算机应用研究》杂志社购买。
欢迎作者提供全文,请点击编辑
分享:
 

了解更多资讯,请关注“木兰百花园”
分享:
 
精彩图文


关键字
支持中国杂志产业发展,请购买、订阅纸质杂志,欢迎杂志社提供过刊、样刊及电子版。
关于我们 | 网站声明 | 刊社管理 | 网站地图 | 联系方式 | 中图分类法 | RSS 2.0订阅 | IP查询
全刊杂志赏析网 2017