互联网 qkzz.net
全刊杂志网:首页 > 大学学报 > 文章正文
刊社推荐

网络时代叙词表的编制与应用


□ 曾建勋 常 春

  [摘要]统计我国叙词表的编制情况,分析在网络时代叙词表的发展趋势以及编制和应用特点。认为在叙词表编制方面,将会实现利用海量的数字信息资源,通过计算机抽取相关的专业术语和词间关系,在领域专家人工辅助干预下,建立适合现代网络信息资源特点和大众化的领域用户使用的叙词表。叙词表主要用于计算机系统后台的标引和检索,用户主要为使用网络检索专业信息的普通用户,数字界面和可视化将是叙词表的主要表现形式。
  [关键词]叙词表编制叙词表应用 网络时代
  [分类号]G254.2
  
  1、我国叙词表编制与研究概况
  
  1.1叙词表编制概况
  在20世纪80年代,我国完成了《汉语主题词表》这样的综合性大型叙词表的编制,各专业领域的叙词表也陆续开始编制和使用,叙词表在我国发展到鼎盛时期。这一时期,叙词表的主要特点表现为纸质印刷版形式的工具书,编制者为图书情报机构的情报专业工作者及具有专业领域知识的研究人员,图书情报单位的专业信息标引人员基于叙词表对数据记录进行标引,图书情报单位的专业信息检索服务人员是叙词表的主要用户,其他用户是经过叙词表使用专业培训的读者,所有这些用户,通过计算机完美地实现了对文献的准确检索,提高了检全率和检准率,这个时代可以总结为图书情报界编制和使用的单机数据库时代。
  鼎盛时期的表现是全方位的,出现了以张琪玉为代表的《情报检索语言》大学经典教材;各个领域的叙词表也集中在这一时期编制和出版,根据笔者2002年的统计以及2002年以后新增加数据,总体统计我国叙词表的编制情况如图1所示:
  我国的叙词表主要集中在1981年至1995年这十几个年头,共编制了90多部不同规模的叙词表,在数量上产生了一个明显的峰值,占总编制量的74%,而20世纪90年代以后叙词表出版就比较少了。在20世纪90年代初,参照叙词表的国际标准,制订了我国叙词表的编制和使用标准,这就是1991年的GB/T 13190-1991汉语叙词表编制规则,1994年的GB/T 15417-1994文献多语种叙词表编制规则,以及1995年的GB/T38601995文献叙词标引规则。
  1.2叙词表研究概况和发展趋势
  从20世纪90年代末开始,随着因特网的迅速发展,网络信息以指数形式增加,虽然这时的网络信息组织也有以Yahoo为代表的主题分类信息检索方法,但主流方式在近几年逐渐发展成为谷歌、百度方式的以关键词索引为主的全文检索方式,这种方式存在严重的检全和检准问题。这就引发了检索领域研究人员的重新思考,即过去用于图书情报机构数据库检索非常成功的叙词表,可否在网络时代同样可以发挥重要的作用?这样,在近几年,对叙词表的研究探索又多了起来,一些是将叙词表转化为本体等在网络时代知识组织系统中发挥作用,例如对中国农业科学叙词表的转化工作;另外一些是对叙词表全方位进行改造和升级,使之在网络时代重新焕发新的生命活力,我们课题组目前正在进行此方面探索研究工作。
  本文统计了近几年发表的叙词表相关的研究论文数量,图2是利用“中国学术文献网络出版总库”统计的叙词表研究和应用的文献增长量及趋势,计算方法为统计所有在标题或关键词处含有中英文叙词表的文献数,可以看出,从1991年到2002年,每年叙词表相关的研究文献基本没有增长,可从2002年开始,有关叙词表的研究文献总体呈上升趋势,可见,在网络时代,叙词表的研究和应用又逐渐升温,成为网络信息组织和检索的一支强劲力量。而且,传统意义的叙词表在我国一些机构得到了持续的维护和发展,标志性产物是一些新的国家标准和行业标准的诞生,例如GBl9486-2004电子政务主题词表编制规则、GTB5098-2004军用电子叙词表编制规则等相关标准的出台。
  与国内情况不同的是国际上一些主流的数据库,随着因特网的发展,不断改进和提高叙词表在网络数据库领域的信息组织和检索能力。例如世界三大农业数据库之一的联合国粮农组织数据库AGRIS,其网络版农业多语种叙词表AGROVOC,进行了不断的修订和维护,完全适应了网络数据库的信息标引和检索功能,其他著名的叙词表,例如Mesh医学主题词表、LCSH国会图书馆标题表等都在网络时代发挥着重要的作用。2005年美国发布了新的叙词表国家标准,叙词表相关的国际标准也在2008年出了讨论稿,可见,叙词表在网络时代新的发展在国际上正在稳步推进。
  
  2、网络时代叙词表的编制和维护
  
  2.1、网络时代叙词表的编制
  2.1.1、在概念术语选用方面具备了科学依据和数据支持过去叙词表概念术语的选择,主要由领域专家人工确定,虽然也要考虑文献覆盖、使用词频等因素,但由于当时计算机应用普及程度低、无法获取海量的信息语料,造成了在实际操作中无法准确地获取文献覆盖、术语词频等数据,实际结果往往为领域专家决定了术语的选取数量和具体词汇,因为人为因素占的比例大,所以出现了同一领域不同专家选用的术语不一致,导致叙词表的应用存在偏差和阻力。在网络信息环境下,我们具备了万方数据、重庆维普、CNKI等这样的大型文献语料库,具备了谷歌、百度这样可以搜索因特网上主要信息的网络搜索引擎,而且可以通过日志获取用户使用检索词汇的种类和频次,所有这些语料,为叙词表编制中基于概念覆盖、基于词频统计、基于用户使用的关键词来选取规范的概念术语提供了可能。我们统计了万方数据和重庆维普1989年至2008年所有收录期刊论文的关键词,经过去重以后,关键词数量约为611万个,而且这些词还具备所处期刊、文章、中图分类号等多种语料信息,可见,仅关键词一项语料资源就可以进行大量的统计工作,为概念术语的选取提供了数据支持和科学依据。
分享:
 

了解更多资讯,请关注“木兰百花园”
分享:
 
精彩图文
关键字
支持中国杂志产业发展,请购买、订阅纸质杂志,欢迎杂志社提供过刊、样刊及电子版。
关于我们 | 网站声明 | 刊社管理 | 网站地图 | 联系方式 | 中图分类法 | RSS 2.0订阅 | EMS快递查询
全刊杂志赏析网 2016