互联网 qkzz.net
全刊杂志网:首页 > 大学学报 > 文章正文
刊社推荐

专题新闻文本集信息可视化研究


□ 安海忠 崔 娜

  [摘要]根据新闻要素说,提取专题新闻文本中的关键词并进行预处理;采用向量空间模型表示文本,运用K—means算法实现文本聚类并构建关键词关联网络模型以实现文本的可视化。实例表明:该方法能直观地显示专题新闻文本集的主要信息,便于快速掌握新闻中的主体与事件的关系以及新闻关注点随时间的变化,从而加深对信息的理解,有利于信息的充分利用。
  [关键词]信息可视化 文本信息 关联网络模型
  [分类号]G203
  
  1 引言
  
  面对大量的新闻信息,人们迫切需要了解信息之间的相互关系及发展趋势,发现隐藏在其中的本质特征和规律。可视化技术可以直观地展示新闻文本中的大量信息及其之间的关系,便于人们理解、掌握信息。
  信息可视化是指非空间数据的可视化。Card等将信息可视化定义为:“使用计算机支持、交互性的视觉表示法,对抽象数据进行表示,以增强认知”。也就是说,信息可视化是使用直观的方式展现原始数据间的复杂关系、潜在信息以及发展趋势,其目的是为了更好地利用信息资源。关于信息可视化的研究主要集中在三个方面:理论介绍、算法与模型的介绍以及实际应用。20世纪90年代是信息可视化研究的初期,主要是理论的介绍,包括信息可视化的概念、内涵、研究内容等。其中,文本信息可视化是信息可视化的一种,可以分为两类:一类是对单文档的可视化;另一类是对多文本(文本集)的可视化。而基于时间信息的可视化模型是信息可视化研究领域的热点问题之一,如时间墙模型和主题河流模型。这两种模型都以时间为水平轴线展示文本信息,以发现文本主题的发展趋势和隐含信息。此外,信息可视化模型还包括关联分析模型和RDV模型。文本信息可视的方法主要有图符标识法、高维空间描述法、自组织地图算法及群集映射法。文本信息可视化的应用研究主要集中在文献领域。如:Young Gil Kim等实现了专利文献的可视化;Josiane Mothe则通过将文本在地图上的可视化显示,进行信息挖掘。在国内,郑珩等针对国内管理科学文献进行可视化研究,任智军等研究了科技文献中的可视化分析技术。
  现已提出的文本信息可视化模型大都按时间关系建立,能直观显示时间上文本间的关联,而对文本间深层次信息实体间的关联则难以体现,导致现阶段文本信息可视化未能挖掘出文本中深层次的信息,仅停留在统计分析的基础之上。因此,本文根据专题新闻文本集的特点,借助网络,针对新闻文本内容,构建专题新闻文本集信息可视化模型,并以新浪网上四川汶川地震专题中关于灾后重建的新闻文本集为例进行实证研究。
  
  2 专题新闻文本集信息可视化流程
  
  专题新闻文本集是多个关于某个专题新闻文本的集合,其可视化流程基本分为以下5个步骤。
  
  2.1 提取关键词
  新闻具有五要素即who、when、where、what和why,因此每篇新闻文本都可以从这五个方面提取关键词,代表每篇新闻文本的主要信息。为了简化研究,突出事件的发展变化,本文只针对who,when和what进行研究。新闻文本一般直接写明描述性特征who和when,但现在的一些新闻中常常省去when。由于新闻具有很强的时效性,当新闻中省略when时,可以用新闻电头标注的时间代替。而对于语义特征要素what,关键词的提取则需要根据研究目的,咨询相关领域的专家并结合领域内热门搜索关键词确定一系列初始关键词,然后参考这些初始关键词,根据新闻文本内容提取。这样,每篇新闻文本的信息就用描述性关键词结合语义关键词表示。
  
  2.2 关键词的预处理
  一篇文本可以用多个关键词表示,当多个文本聚合在一起时,关键词数量巨大且分散而无规律可循,需要减少关键词。根据描述性关键词和语义关键词的不同特点,采用不同的方法分别对两者进行预处理。经过预处理的关键词构成关键词库。
  在新闻文本中,who和when是具体化的,因此提取的关键词也是具体的。对于when,根据研究的专题新闻文本集的时间范围,将时间粒度确定为日、月或年。对于who则可以进行语义泛化处理。例如,国家元首是国家政府的代表,可以将其泛化为某国政府。
  泛化处理后的语义关键词what数量可能仍然太大,可以根据不同的主体分别对语义关键词进行主成分分析,得出不同主体的主要行为及其原因,以进一步减少关键词。
  
  2.3 文本聚类
  文本聚类前常用向量空间模型对文本信息进行处理,称为文本表示,其目标就是将文本表示成为带权重的向量。一般使用“词一文档”矩阵表示一系列文档。矩阵的每一列(1,…,j,…,n)代表预处理后的一个关键词,矩阵的每一行(1,…,i,…,m)代表文本集中的一个文本。参照预处理后的关键词库,当第i个文本中含有关键词j,那么矩阵中元素(i,j)的值为1,否则为0。所有的文本都可以用元素为0或1的向量表示。
分享:
 

了解更多资讯,请关注“木兰百花园”
分享:
 
精彩图文
关键字
支持中国杂志产业发展,请购买、订阅纸质杂志,欢迎杂志社提供过刊、样刊及电子版。
关于我们 | 网站声明 | 刊社管理 | 网站地图 | 联系方式 | 中图分类法 | RSS 2.0订阅 | EMS快递查询
全刊杂志赏析网 2016