互联网 qkzz.net
全刊杂志网:首页 > 大学学报 > 文章正文
刊社推荐

基于分类标注语料库的关键词标引知识自动获取


□ 刘 华

  〔摘要〕基于大规模层级分类语料库,抽取网页上专家已经标引的关键词形成关键词表;针对关键词的领域不均匀性和邻界域两个特征,提出并模拟计算了关键词表征文本主题特征程度的主题度。以关键词及其主题度为领域知识,结合统计方法,完成了一个知识与统计相结合的关键词自动标引系统。
  〔关键词〕关键词标引 分类语料库 主题度
  〔分类号〕G254.361 TP391.1
  
  Knowledge Repository Acquire for Keywords Auto-Indexing System Based on Labeled and Classed Corpus
  Liu Hua
  College of Chinese Language and Culture of Jinan University, Guangzhou510610
  〔Abstract〕From a classed large-scale corpus, extracts keywords labeled on web pages by indexing specialist and formed a keywords list; Referring to the two characteristics of keywords: fields non-even and exists range edge, brought up and calculated the words' subject degree by statistical model.Subject degree expresses text content' s subject concept. Based on subject degree, constructed a key words auto-indexing system.
  〔Keywords〕keywords indexing classed corpus subject degree
  
  1关键词标引知识
  
  关键词自动标引根据文档的主题内容,借助计算机处理技术,自动从文档中直接抽取关键词作为标引词。关键词自动标引可分为两种:基于知识的和基于统计的。基于知识的关键词标引通常见于图书馆文献标引领域,主要基于已有的标引资源,如《汉语主题词语表》、《中国分类词语表》及其复分表以及各专科性主题标引手册等,利用文献标引规则,由专家手工标引。基于统计的主题词标引主要借助于数据挖掘和机器学习的统计算法实现,如马尔可夫统计模型和互信息、最大熵模型等。
  关键词自动标引的任务包括:①文档表示为怎样的词语集合作为关键词候选项 ;②依据什么标准选出候选项作为关键词。
  因此,关键词自动标引需要的领域知识主要包括:关键词候选项、表示词语主题象征性能力的某种强度或权重。
  本文基于大规模层级分类标注语料库,抽取网页上专家已经标引的关键词形成超大词语表;针对关键词的领域不均匀性和邻界域两个特征,提出并模拟计算了关键词表征文本主题特征程度的主题度。
  
  2基于语料库的关键词标注知识获取
  
  2.1专家标引的网页关键词获取
  在构建文本分类和主题词标引系统时,我们建立了一个超大规模的语料库。语料来自几个门户网站,时间跨度为3年(2003-2005),共约60万个网页,6亿字。对60万个网页提取出详细的语料信息,如标题、栏目、关键词、时间、同主题链接标题和正文。
  同时,我们通过对4个门户网站、3个搜索引擎和13个主流报纸网站的栏目分类体系和传统分类体系的对比研究,使用同名栏目去重、相似栏目合并、异名同类栏目映射、子类栏目提炼上升等手段,最终在总结各大网站栏目共性的基础上,重点考虑“主题划分”、“生活优先”的原则,归纳出一个网页分类用类目体系。该体系分15个大类,层级类别最深为4级,如“科技_数码_视频_数字电视”,类目总共244个。
  将语料库的网页栏目和已建立的网页分类体系进行映射,最终,形成以XML格式存储的详细标注语料属性的层级分类语料库。
分享:
 

了解更多资讯,请关注“木兰百花园”
分享:
 
精彩图文
关键字
支持中国杂志产业发展,请购买、订阅纸质杂志,欢迎杂志社提供过刊、样刊及电子版。
关于我们 | 网站声明 | 刊社管理 | 网站地图 | 联系方式 | 中图分类法 | RSS 2.0订阅 | EMS快递查询
全刊杂志赏析网 2016