互联网 qkzz.net
全刊杂志网:首页 > 女性 > 文章正文
刊社推荐

基于语义模型的数字图书馆知识组织信息抽取策略


□ 牟冬梅 陈 倩 王丽伟

  [摘要]简述语义模型是实现数字资源语义关系形式化描述的方式,是数字图书馆知识组织语义互联的重要影响因素。作为数字图书馆知识组织语义互联的重要环节,信息抽取需要本体提供语义知识依据,同时产生的文档也可以作为设计和丰富本体的知识资源。构建数字图书馆知识组织语言联的语义模型以“元数据、领域本体、桥本体、本体解析体系”为核心要素,在此基础上探讨信息抽取的策略。
  [关键词]数字图书馆 语义模型 信息抽取 本体
  [分类号]G250.76
  
  1 引言
  
  语义是指“数据(符号)”所指代的概念的含义以及这些含义之间的关系,是对数据的抽象或者更高层次的逻辑表示。语义通过两种途径产生:①人类赋予;②通过计算模型产生。通过第二种方式产生的语义可以被计算机理解和处理,可以被获取、传递、共享。根据实体资源(如文本和图像)来产生语义或挖掘出信息所蕴含的隐性语义是一个挑战性的任务。基于统计的聚类分析、共词分析、信息抽取和挖掘技术可以帮助实现语义的自动抽取。实现的关键在于建立一个语义模型,该模型既适用于显式语义,又适用于通过显式语义挖掘推导出隐含语义。语义模型是通过模型作为媒介来实现数据语义关系形式化描述的一种方式。基于本体的语义模型是通过以本体为核心的模型作为媒介,实现数字资源语义关系形式化描述的一种方式。本文基于本体构建了语义模型,并基于该语义模型探讨数字图书馆知识组织过程中信息抽取策略。
  
  2 信息抽取与本体
  
  信息抽取是从分布的、异构的文本中提取出特定的事实信息,将其中隐含的语义提取出来并以更为结构化、更为清晰的形式表示,为用户使用提供便利。信息抽取与语义标注总是融合在一起、互相支持的;信息抽取需要在语义标注的基础上进行,语义标注的内容是经过信息抽取提取出来的。因此,目前对于信息抽取研究离不开对抽取对象的语义分析和描述。语义分析与描述技术的研究热点是本体技术。
  
  本体是对面向计算机语言的、已被组织的知识的描述,而信息抽取是面向自然语言,分析文档表达的事实和从这些文档中提取相关信息片段。信息抽取和本体是相辅相成的:作为抽取相关信息的理解程序,本体被用于信息抽取,是信息抽取的语义知识依据;信息抽取可以丰富本体,因为信息抽取出来的文档可以作为设计和丰富本体的知识资源。
  这两方面的任务被结合在循环中(见图1)。本体可以有效地、准确地、解释信息抽取出来的数据,而信息抽取从文档提取出来的新知识可以整合进入本体从而丰富本体。
  
  2.1本体对信息抽取的支持
  在抽取过程中,本体知识对文档的语义解释具有重要作用。 ......
很抱歉,暂无全文,若需要阅读全文或喜欢本刊物请联系《图书情报工作》杂志社购买。
欢迎作者提供全文,请点击编辑
分享:
 

了解更多资讯,请关注“木兰百花园”
分享:
 
精彩图文


关键字
支持中国杂志产业发展,请购买、订阅纸质杂志,欢迎杂志社提供过刊、样刊及电子版。
关于我们 | 网站声明 | 刊社管理 | 网站地图 | 联系方式 | 中图分类法 | RSS 2.0订阅 | IP查询
全刊杂志赏析网 2017