互联网 qkzz.net
全刊杂志网:首页 > 大学学报 > 文章正文
刊社推荐

学术论文复制检测的研究进展及新方法


□ 王秀红

  [摘要]综述国内外学术论文复制检测的研究现状,针对存在的问题提出以后研究的新思路:构建某一学科领域学术论文语料库;以信息论为工具,针对某学科领域建立基于学术论文语料库的统计语言模型;结合学术论文抄袭剽窃的特点,通过赋予描述资源对象语义信息的不同元数据项以不同的权函数,设计相似度算法;使用Lemur工具箱,在标准的TREC文档集上对模型和算法进行检验;与Turnitin侦探剽窃系统进行实验对比,评价该模型和算法的有效率和效果。
  [关键词]学术论文 复制检测 抄袭剽窃检测 统计语言模型 文本相似度算法
  [分类号]TP391.1
  
  自从方舟子的“新语丝”使原本长期存在于学术界的学术不端暴露出来之后,学术论文抄袭剽窃引起社会的广泛关注。抄袭剽窃的表现形式多种多样:有些只是在语言文字的表达形式上做手脚,换成同义词或颠倒语句的表达顺序,在文章框架、主要观点和主要论据上却没有大的变化;有些直接大段地“引用”别人的内容;有些综合运用多种手段,将多篇别人的文章拼凑而成自己的;有些“学术高手”直接拿国外的论文翻译成中文发表,等等。抄袭和剽窃“手段”的越来越“高明”,给抄袭剽窃检测带来很大困难。抄袭检测又叫复制检测、剽窃检测或副本检测,根据检测对象性质不同可分为图像、声音和文本复制检测。学术论文抄袭检测是文本复制检测的一种,归根到底是判断两篇学术论文的相似程度。“召回率”和“精准率”是判断检测算法好坏的两个重要指标。为了进一步提高学术论文复制检测判断的准确率,针对学术论文的文档相似度算法的改进和创新研究变得尤为重要。
  
  1 国内外研究现状及存在的问题
  
  1.1 国外研究现状
  国外具有代表性的文档相似度算法主要有以下几种:①Manber提出一个sif工具,其“近似指纹”是用基于字符串匹配的方法来度量文件之间的相似性;②Brin等在“数字图书馆”工程中首次提出文本复制检测机制COPS(copy protection system)系统与相应算法,奠定了论文抄袭检测系统的基础;③Garcia-Molin提出SCAM(Stanford copy analysis method)原型,改进了COPS系统,用于发现知识产权冲突。他使用基于词频统计的方法来度量文本相似性,后来把检测范围从单个注册数据库扩展到分布式数据库上以及在Web上探测文本复制的方法;④贝尔实验室的Heintze开发了KOALA系统用于剽窃检测,采用与sif基本相同的算法;⑤si和Leong等人建立的CHEC系统首次把文档结构信息引入到文本相似性度量中;⑥Stein提出一种方法,这种方法能产生一种“指纹”,在某种程度上能有效防止修改;⑦MeyerzuEissen等提出通过根据写作风格上的变化来分析单篇文档,从而决定是否有潜在抄袭;⑧美国学校首先引入Tumitin侦探剽窃数据库,用于防止论文抄袭,此外还有其他类似软件系统用于进行文档相似度分析。当然不同的检测系统其相似度算法的精度也不尽相同。 ......
很抱歉,暂无全文,若需要阅读全文或喜欢本刊物请联系《图书情报工作》杂志社购买。
欢迎作者提供全文,请点击编辑
分享:
 

了解更多资讯,请关注“木兰百花园”
分享:
 
精彩图文


关键字
支持中国杂志产业发展,请购买、订阅纸质杂志,欢迎杂志社提供过刊、样刊及电子版。
关于我们 | 网站声明 | 刊社管理 | 网站地图 | 联系方式 | 中图分类法 | RSS 2.0订阅 | IP查询
全刊杂志赏析网 2017