互联网 qkzz.net
全刊杂志网:首页 > 女性 > 文章正文
刊社推荐

基于中文信息处理的古籍整理研究评述


□ 赵 阳 顾 磊

  [摘要]随着计算机技术的飞速发展,基于中文信息处理的古籍整理已成为近年来的研究热点,并且取得一些可喜的成绩。在搜集整理当前研究与应用成果的基础上,从古籍的自动录入、自动断句、自动编纂以及自动翻译等方面对基于中文信息处理技术的古籍整理的研究现状进行概述,同时分别探讨这几个方面仍然存在的问题,并展望其今后的研究工作。
  [关键词]古籍整理 中文信息处理 古籍研究
  [分类号]G252.7
  
  1 引言
  
  在人类几千年的历史发展中,我们的先祖利用文言撰写了大量的作品,例如:史书、笔记、方志、字书、诗词、杂考等等。这些浩如烟海的古籍记载了华夏民族的历史和辉煌,是极其珍贵的文化遗产。因此如何对它们进行有效地整理和深入地研究是我们当代科研工作者责无旁贷的任务。传统古籍整理的方式一般都是人为的手工方式,这是一项极艰难极复杂的工作,需要大量的时间和耐心。但当计算机出现以后,人们就期盼能用计算机来进行古籍整理研究,而中文信息处理技术就是实现这一美好愿望的有效手段。
  现在对中文信息处理通常的理解是:用计算机来加工处理中文的信息,属于涉及计算机科学、认知科学、语言学、信息学、数学、声学等多种学科的一门综合性交叉学科。中文信息处理包含汉字输入、文字识别、语音识别、汉语分词、语义分析、语言翻译、信息检索等多个分支。汉字输入就是指将汉字信息输入到计算机,常见的输入方法有键盘输入和联机手写输入;文字识别是指用计算机自动地识别出写在介质上的汉字,文字识别一般可分为印刷体识别和手写体识别两种;语音识别是计算机通过识别和理解过程把语音信号转变为相应的文本文件或命令的信息处理技术,具有代表性的方法主要有隐马尔可夫法和神经网络法;汉语分词就是指利用计算机自动地将一个句子中的每个词分开,即类似于英语中用空格将每个单词隔开,目前的分词方法归纳起来有三种类型:机械分词法、语义分词法和人工智能法;语义分析指的是在分析句子的句法结构和辨析句中每个词词义的基础上,推导句义的形式化表示;语言翻译就是用计算机来实现不同语言之间的翻译,被翻译的语言通常称作源语言,翻译成的结果语言称作目标语言;信息检索是指计算机通过特定的算法或模型从各种信息文档中搜索有价值的信息或知识的一种高技术。当前越来越多的研究者将这些中文信息处理技术应用于古籍整理研究中,尤其是在古籍的录入、标点、编纂等方面获得了显著的成果。
  
  2 古籍自动录入
  
  传统的古籍录入方式多采用手工的形式,通过人为的键盘输入或是联机手写输入的方式将古籍中的文字输入计算机,这种方法要花费大量的人力和时间,而且容易出错。因此要实现古籍中的文字信息高速、自动输入到计算机,目前多采用光学字符识别(OCR)技术来进行古籍的录入。OCR技术可以高速地辨别纸张上的文字,并将其转化为可编辑的文字。古籍自动录入大致要经过图像扫描、预处理、版面分析、文字区域提取、文字识别、后处理等几个步骤,具体过程如图1所示: ......
很抱歉,暂无全文,若需要阅读全文或喜欢本刊物请联系《图书情报工作》杂志社购买。
欢迎作者提供全文,请点击编辑
分享:
 

了解更多资讯,请关注“木兰百花园”
分享:
 
精彩图文


关键字
支持中国杂志产业发展,请购买、订阅纸质杂志,欢迎杂志社提供过刊、样刊及电子版。
关于我们 | 网站声明 | 刊社管理 | 网站地图 | 联系方式 | 中图分类法 | RSS 2.0订阅 | IP查询
全刊杂志赏析网 2017