互联网 qkzz.net
全刊杂志网:首页 > 大学学报 > 文章正文
刊社推荐

关于建立中国国家科学技术语料库的思考


[摘要] 论述当前语料库建设的最新发展趋势以及建立我国大规模、国家级科学技术语料库对应用于科技信息领域的自然语言处理技术、知识技术等智能信息技术研究发展的意义和重要性,探讨国家科技语料库的建设目标、设计原则、加工功能、组成结构及其他一些相关问题,目的是推动我国科技语料库的建设,并得到国家有关部门的关注与支持。
  [关键词] 自然语言处理 科学技术语料库 句法树库 语料标注
  [分类号] H087 TP391
  
  1 引 言
  
  自然语言处理技术已经成为数字图书馆进一步发展的重要技术基础。当前,自然语言处理技术的发展和应用越来越依赖大规模、深加工的语料库作为基础,包括通用的和专业领域的语料库。为了使自然语言文本分析和挖掘、机器翻译、单语言或多语言基于知识的问答式信息检索等自然语言处理技术早日在数字化文献信息服务中得以应用,我们认为,有必要建立中国国家科学技术语料库。这一国家级语料库不仅有利于自然语言处理技术的发展应用,也会促进知识工程技术(如各类知识库的自动构建)的发展,促进基于语料库的科技语言研究的发展。而科技语言研究在国内几乎还是空白,用科技语料库来促进以汉语为主的国内科技语言研究,这对提高我国在国内和国际的科技交流与传播水平具有重大基础意义。
  建立国家级公用性的大规模语料库在国外早已开始。例如:20世纪90年代初,英国就开始建立英国国家语料库(BNC),迄今已达4亿词的规模;2004年,美国也在原有一些重要语料库的基础上,组建美国国家语料库(ANC)。这些国家级语料库都是通用的语料库,但都包含有一定数量比例的科技语言文本。我国国内虽也有一些著名的大型语料库,如北京大学计算语言学研究所以《人民日报》为内容的汉语语料库,但尚未达到BNC语料库那样的规模和级别。我们认为,或许可以通过中国国家科技语料库的建设来进一步带动我国国家级通用语料库以及整个语言数据工程的建设工作。
  本文依托我们承担的国家科技支撑计划项目课题“多语言信息服务环境关键技术研究与应用”的研究工作,对建立中国国家科学技术语料库提出一些初步的考虑。
  
  2 语料库发展历史和当前趋势
  
  2.1 发展历史
  我们现在所说的语料库,是指基于计算机的语料库,也叫电子语料库或数字语料库(Digital corpus),其研究和构建始于20世纪60年代初。开始,语料库的建设主要是为了语言学家的语言研究工作,如语法研究和编纂。进入20世纪80年代后,西方一些大型出版社开始通过建设语料库来支持编纂出版语言词典。英国在20世纪70年代初和20世纪80年代中期,由著名学者R,Quirk主持编纂的两个版本的大型英语语法专著以及在20世纪80年代中期英国柯林斯出版社出版的Cobuild系列英语词典,都是在大型语料库基础上完成的,都被视为现代发达国家在民族语言和文化建设上的划时代的里程碑事件。
  20世纪90年代后,随着统计自然语言处理,特别是统计机器翻译技术的研究发展对语料库的需要,语料库建设得到了迅速发展。美国宾州大学的各类语料库就是面向自然语言处理技术的重要代表。目前,语料库开发建设日益成为一项典型的数据工程技术,而且日益结合人工智能中的机器学习等多项技术,大大促进了自然语言处理技术(包括机器翻译技术)的发展,也促进了知识工程技术(如知识库构建、本体学习等)的发展。
  语料库工程同自然语言处理技术之间的关系,可以说是一种相互促进、螺旋上升的关系,即:语料库加工需要一系列自然语言处理工具,如词性标注、句法分析等,同时语料库又是发展一系列自然语言处理技术的数据基础,通过机器学习方式加工语料库,可以为各种统计自然语言处理提供大规模训练语料和测试语料。没有语料库的数据作基础,统计式词性标注器、句法分析器就不可能产生。由此可见,语料库建设在自然语言处理技术和知识技术研究发展中,已经是不可或缺、基础性而且大规模的独立数据工程。
分享:
 

了解更多资讯,请关注“木兰百花园”
更多关于“关于建立中国国家科学技术语料库的思考”的相关文章
    分享:
     
    精彩图文
    关键字
    支持中国杂志产业发展,请购买、订阅纸质杂志,欢迎杂志社提供过刊、样刊及电子版。
    关于我们 | 网站声明 | 刊社管理 | 网站地图 | 联系方式 | 中图分类法 | RSS 2.0订阅 | EMS快递查询
    全刊杂志赏析网 2016