互联网 qkzz.net
全刊杂志网:首页 > 大学学报 > 文章正文
刊社推荐

基于文献标题词汇共现获取词间关系研究


□ 常 春 赖院根

  [摘要]通过词汇在文献里共现特征分析,可以为人工确定词间关系起到指引和减轻工作量的作用。文章具体使用水利水电领域专业词汇,通过在重庆维普核心科技期刊数据库中的共现频次和共现率的统计分析,以“水电站”与其他高频词组合检索,统计词频、共现频次以及共现率,结果认为,词频、共现频次、共现率等信息对人工确定词间关系具有指导意义,并且讨论了可能存在的问题及解决办法。
  [关键词]词间关系 词频 共现率
  [分类号] G254.2
  
  随着信息技术、网络技术的飞速发展,用户通过网络获取信息逐步成为主要的信息获取方法。但在目前的网络搜索引擎,例如Coogle和百度,为普通用户提供强大搜索功能的同时,越来越多的用户却受到了信息查准方面问题的困扰,即目标信息淹没在海量的搜索结果中,用户无法浏览所有的查询结果。为了解决此类问题,计算机科学、图书情报学领域的科研人员开始探索智能检索、语义检索等新的检索方式。这些检索方式的基础就是必须事先具备一个相关领域的概念知识体系,基于这样的概念知识体系进行标引和检索,就可以解决信息查准问题。叙词表就是比较完善的概念知识体系,在数据库检索领域曾经或者正在发挥着强大的作用,但叙词表词间关系相对简单,无法准确表达语义方面关系;本体论(ontology)是近年来兴起的新的概念知识体系,可以表达更为精确的概念关系,而且机器可以理解这些关系。无论是叙词表,还是本体论,都必须事先进行人工构建,这样的工作费时费力,影响了应用的开展和推广。本文就是在这样的背景下,使用具有完整数据信息的巨型文献数据库资源,通过关键词词频统计、词汇组合在文献标题中共现统计,协助领域专家建立基于数据库文献语料、基于用户的概念间关系,促进叙词表或本体论的构建和应用。我们具体使用重庆维普中文核心科技期刊数据库文献进行统计和试验。
  
  1、叙词表及本体中常见词间关系
  
  1.1叙词表主要词间关系
  叙词表诞生于20世纪50年代。在我国,叙词表的主要发展始于70年代的“748”工程,1980年《汉语主题词表》的出版是叙词表发展的标志产物,从此我国进入叙词表的大规模编制和应用时代。到90年代以后,部分叙词表在使用中得到了不断维护和更新,但包括《汉语主题词表》在内,许多叙词表处于发展停滞状态。从本世纪起,随着语义网络的兴起,许多研究人员又开始关注叙词表的功能,叙词表重新获得新的发展机遇。
  
  标引和检索是叙词表的主要功能,是通过代表概念的、来源于自然语言的具体词汇实现的。这些词汇也可以称为术语或者概念。概念间有一定的关系,统称为词间关系。叙词表中主要有三种词间关系,一种为等同关系,也称用代关系,是指含义相同或相近(个别情况下甚至是相反)的叙词与非叙词之间的关系;一种为等级关系,也称上下位关系,或属分关系,即上位概念包含下位概念、下位概念属于上位概念的关系;还有一种为相关关系,即一个概念与另一个概念相关,概念相关关系有多种,比如因果关系、材料与功能关系等多种类型,但在叙词表中统称为相关关系,不进行细分。 ......
很抱歉,暂无全文,若需要阅读全文或喜欢本刊物请联系《图书情报工作》杂志社购买。
欢迎作者提供全文,请点击编辑
分享:
 

了解更多资讯,请关注“木兰百花园”
分享:
 
精彩图文


关键字
支持中国杂志产业发展,请购买、订阅纸质杂志,欢迎杂志社提供过刊、样刊及电子版。
关于我们 | 网站声明 | 刊社管理 | 网站地图 | 联系方式 | 中图分类法 | RSS 2.0订阅 | IP查询
全刊杂志赏析网 2017