互联网 qkzz.net
全刊杂志网:首页 > 大学学报 > 文章正文
刊社推荐

英语语料库翻译教学平台设计研究


□ 陈丽旦 郭业频 周志刚

  语料库是由大量收集的书面语构成,并通过计算机储存和处理,用于语言学研究的文本库。本文提出的《中医英语语料库翻译教学平台》正是在这样的大背景下研发出来的。系统建立在《新编实用中医文库》、《英汉对照中医本科系列教材》和《中医药院校外国进修生教材》等经典中医文献全部语料的基础上,充分结合中医汉英双语语料的特点,应用计算机技术,实现了对中医语料的收集、筛选、分类、统计、检索、对齐显示等功能,为中医双语教学及中医语言研究提供了一个高效、准确、统一的研究参考平台。
  
  一.语料库的构建
  1.语料库的模型。构建具有统一标准和规范的大规模、多体裁、篇章级、段落级、句子级等多级对齐的面向双语教学和翻译的双语对齐语料库,我们用这个语料库为基于存储的引擎提供中医翻译实例,并从中挖掘学习各种细粒度翻译知识,供其他翻译引擎使用。此外,我们也希望该语料库在逐步趋向平衡后, 能够服务于中医中英双语词典编纂双语术语自动提取双语对比研究以及双语教学等其他研究领域,用户整理加工大量中医专业中英对照的真实语料,同时可以在投入使用后继续收集语料,建成一个大规模的双语平行语料库。构建双语平行语料库的核心任务是双语语料的加工和语料库的组织。为了更好地开展这两项工作,保证双语平行语料库的质量和规模,并且合理、有效地推进语料库建设,我们需要一个相对完整便于操作的语料库构建流程:语料收集→语料加工(人工预处理)→语料标准化→机器组织加工→语料入库。
  2.语料的收集和整理。语料库建设是一项工作量极大的工作,因为一个有实际应用价值的双语语料库决不是任意文本的任意集合,其文本类型、大小以及语料的构成都必须根据应用需求,经过仔细设计,只有这样才能保证所投入的工作是值得的。我们所要建的双语语料库是一个专用语料库,面向中医专业教学辅助翻译系统的,同时可应用于中医教学、中医翻译、中医专业知识自学等领域, 由于这个语料库的直接应用目标中医专业教学翻译系统, 理想的语料应该是有关中医专业的语料。
  3.语料的标注。本系统是面向中医专业教学辅助翻译系统的,同时可应用于中医教学、中医翻译、中医专业知识自学等领域,同时对语料的多种对齐方式显示给用户,系统必须能针对中英断句的习惯来对语料的句、段等不同单位进行标注,提供给用户简单明确的翻译结果。
  
  二.语料库的结构
  整个中医语料库实质就是由经过标准化的中英文文本文档组成,用相应数据库的文本格式数据表示,每个记录都由五个核心部分组成,其中有惟一标识该记录的编号标识、中文文本、英文文本、中文检索关键字或文本特征描述、英文关键字或英文文本特征描述以及提高检索速度的大量索引。
  可选方案:a基于对语料库的检索速度的考虑,可以有比较成熟做法是基于不同主题建立索引,以多维度来对语料资料进行整理分析,并建立多维索引,提高查询速度;b.建立相应的示图等虚拟表结构,把大量的数据文件逻辑分离、查询优化工作预先做好,以缩短执行响应时间;c.建立存储过程等数据库系统高级工具来减少搜索引擎的指令编译时间;d.利用例如连接池等前端工具来减少数据文件重复加载时间。
  
  三.前台应用系统
  系统是面向教育教学,对中医语句进行有效的整理,并提供快速正确的检索功能,提供给用户方便快捷的中医语料查询翻译功能。系统通过对文本语料进行切分和标注等方法进行加工,把语料资料按照一定的系统标准存储入计算机内,并在用户的请求下,使用数据挖掘处理工具对数据进行操作、再整理、界面显示等,响应最终用户的请求。
  
  四.主要功能:
  1.语料检索。主要是出于对用户方便性的考虑,需要提供一种能够简便的用户检索接口。
  2.数据信息提取。在用户正常的检索请求情况下能够遍历相关主题整个库文件,把相关的信息检索出来,而且要保证在系统允许的最低准确率之上和时间可以允许范围内。可以采用相应的算法来提高效率。
  3.信息文本长度统计。这是文本对齐的必要准备,只有在长度统计准确的前提下才能准确无误地显示在用户的应用界面。
  4.对齐显示。这是本系统在最终用户层的最重要的功能之一,必须提供篇章段落级对齐、句句对齐的要求,初步拟订对语料进行切片的方式,然后对不同的切片的长度进行计算,并选择两种语种最长的长度为标准(其中在计算机的内部汉字的长度是英语字的两倍),采取左对齐右端用空格的方式在最终结果按相应的对齐方式显示给最终用户。备选方案:a.采用查询结果同步扫描的方式,分别对两种语种的文本进行扫描,选长度大的作为标准,此方案的优点是:能能够灵活的处理查询结果,缺点是:处理速度慢。b.采用在语料数据入库时就按相应的对齐方式做好断句的分割。这种方案的优点是:检索程序能直接显示检索结果,检索速度快,如果能采用对不同对齐方式的文本文件记录采用不同的存储目录,可以减少检索程序的遍历长度;缺点是:由于语料在不同的对齐方式下的文本不尽相同,语料库必须用多个文件来存储相同语句的不同对齐方式下是文件,浪费存储空间;同时,由于同样的语料数据可能会要求有多种不同的显示形式,每种语料资料的显示就会有多条记录,这样对语料数据的利用显得不充分。
分享:
 

了解更多资讯,请关注“木兰百花园”
分享:
 
精彩图文
关键字
支持中国杂志产业发展,请购买、订阅纸质杂志,欢迎杂志社提供过刊、样刊及电子版。
关于我们 | 网站声明 | 刊社管理 | 网站地图 | 联系方式 | 中图分类法 | RSS 2.0订阅 | EMS快递查询
全刊杂志赏析网 2016