探究论文检测系统抄袭的算法原理等技术研究
论文抄袭的检测是知识产权保护中一项重要的内容,已有众多的识别方法和系统。本文从抄袭检测的技术概述定义、数字指纹和词频统计两大类技术和方法和抄袭剽窃识别系统等方面为基本思路,对该领域中已提出的主要研究方案进行了分类阐述和比较分析,总结了其最新研究进展,为下一步的研究提出了新的课题和设想。
随着数字图书馆和互联网的飞速发展,数字化文档唾手可得。近年来学术剽窃现象屡见报端,①公众人物学术造假事件的曝光使得民众对学术不端行为的关注进一步提升,其行为的危害已经引起社会各界的广泛重视。如何有效的防范、遏制抄袭等学习不端行为成为人们研究的热点,随着各种抄袭检测技术的研究不断深入,各种学术不端检测系统应运而生。本文要探讨的是抄袭的识别技术和检测工具。
1 研究背景
抄袭现象之所以存在有着多层面的原因,首先,各种利益的驱动或者自身能力的限制使得抄袭者产生了主观的故意;毫无疑问,互联网的广泛普及,搜索引擎的强大功能都为抄袭等行为提供了便利;网络及各种全文数据库收藏的海量文献为抄袭者提供了原材料;抄袭检测工具应用不够普及、功能有待提高使得抄袭者心存侥幸;对抄袭行为可能引起的法律问题严重的认知不足等等。抄袭应用的领域可能是一篇学术论文、一篇博客、一段程序代码等等,本文关注的是中文学术论文的抄袭。从技术层面上来说,杜绝抄袭可以从两个方面入手:一是在写作过程中阻止;二是在发表过程中检测。“检测”方法的设计思路是这样的:不关心文章以何种方式完成,只是在定稿的文档中进行检测,确定其中是否含有抄袭的内容即可。显然使用检测的方法来判别可操作性更强。
2 抄袭检测技术概述
对于自然语言的抄袭检测技术的核心就是文档复制检测技术。文档复制检测有两类基本的检测方法:一类是基于字符串比较的方法;另一类是基于词频统计的方法。基于字符串比较的方法也称为数字指纹法,这类方法通过某种选取策略在文档中取一些字符串作为“指纹”,把指纹映射到Hash 表中,最后统计Hash 表中相同的指纹数目或者比率,作为文本相似度依据。基于词频统计的方法也称为基于语义的方法。词频统计法源于信息检索技术中的向量空间模型,该类方法首先都要统计每篇文档中各个单词的出现次数,然后根据单词频度构成文档特征向量,最后采用点积、余弦或者类似方式度量两篇文档的特征向量,以此作为文档相似度的依据。
3 抄袭检测技术的发展
使用计算机开展抄袭识别的研究首先要对数字文档进行分析处理,而数字文档又可分为两种类别,即:自然语言文本和形式语言文本。形式语言文本比较典型的是计算机程序源代码,虽然抄袭的案例较多,但因其具有规范的语法和语句结构特点,相对比较容易分析处理,针对此类抄袭识别的研究也较早。而自然语言文本(如:论文等)复制检测技术的出现比程序复制检测晚了20 年。②1993 年,美国亚利桑那大学的Manber提出了“近似指纹”概念,基于此提出了sif 工具,用基于字符串匹配的方法来度量文件之间的相似性。美国斯坦福大学的Brin 等人首次提出了COPS 系统与相应算法,其后提出的SCAM 原型对此进行了改进了。SCAM 借鉴了信息检索技术
中的向量空间模型,使用基于词频统计的方法来度量文本相似性。香港理工大学的Si 和Leong 等人采用统计关键词的方法来度量文本相似性,建立了CHECK 原型,并首次在相似性度量中引入文档的结构信息。到了2000 年,Monostori 等人用后缀树来搜寻字符串之间的最大子串,建立了MDR 原型。在此之前,全美国的教育工作者们现已懂得综合运用课堂书写段落样本、互联网搜索工具和反剽窃技术三结合手段遏制欺骗的源头对于中文论文的抄袭识别,存在更大的困难。汉语与英文不同,它以字为基本的书写单位,词与词之间没有明显的区分标记,因此,中文分词是汉语文档处理的基础。汉语文本抄袭识别系统首先需要分词作为其最基本的模块,因此,中文文
本自动分词的好坏在一定程度上影响抄袭识别的准确性。同时计算机在自然语言理解方面有欠缺,而抄袭又不仅仅局限于照抄照搬式的,很难达到准确的抄袭识别。所以解决中文论文抄袭识别问题还不能全盘照搬国外技术。北京邮电大学张焕炯等用编码理论中汉明距离的计算公式计算文本相似度。中科院计算所以属性论为理论依据,计算向量之间的匹配距离,从而得到文本相似度。程玉柱等以汉字数学表达式理论为基础,将文本相似度计算转换为空间坐标系中向量夹角余弦的计算问题。西安交通大学的宋擒豹等人开发了CDSDG系统,采用基于词频统计的重叠度度量算法在不同粒度计算总体语义重叠度和结构重叠度。此算法不但能检测数字正文整体非法复制行为,而且还能检测诸如子集复制和移位局部复制等部分非法复制行为。晋耀红基于语境框架的相似度计算算法,考虑了对象之间的语义关系,从语义的角度给出文本之间的相似关系。大连理工大学的金博、史彦军、滕弘飞针对学术论文的特有结构,对学术论文进行篇章结构分析,再通过数字指纹和词频统计等方法计算出学术论文之间的相似度。张明辉针对重复网页问题提出了基于段落的分段签名近似镜像新算法。鲍军鹏等基于网格的文本复制检测系统提出了语义序列核方法的复制检测技术。金博、史彦军、滕弘飞少给出了一个基于语义理解的复制检测系统架构,其核心是以知网词语相似度计算为基础,并将应用范围扩大到段落。聂规划等基于本体的论文复制检测系统利用语义网本体技术构建论文本体和计算论文相似度。
4 抄袭检测系统的应用
运用信息技术反剽窃是国内规范学术行为的有效措施之一。④国外从20 世纪70 年代初,就开始有研究防止程序抄袭的软件,但直至1991 年第一个自然语言文本抄袭识别软件WordCheck 才诞生,目前广泛应用并具有代表性的软件有很多。如论文作业抄袭检查平台TurnItIn,由iParadigms 开发,系统采用基于数字指纹的抄袭检测方法,检测资源包括网络资源ProQuest 论文库、论文作业库等。提供的英文反剽窃服务目前已经服务于包括美国加州大学伯克利分校、杜克大学、德国汉堡大学等在内的2500 多所高校和科研机构,遍及九十多个国家,检索网页数量超66 亿,用户达650 万。据称,该网站目前已阻止了世界范围内将近600 万的学生和教育者的剽窃行为,在使用的高峰期,每天可以收到2 万篇论文。由Cross-Ref 与iParadigms 共同开发的抄袭检测平台CrossCheck,于2008 年6 月19 日正式启动。CrossCheck 的功能由两部分组成:一个基于全球学术出版物所组成的庞大数据库和一个基于网页的检验工具。这个基于网页的工具可用于编辑过程中去鉴别相似文档,生成对比报告,并通过分析去判断是否存有学术剽窃行为。截止2010 年3 月,正式会员包括Elsevier,Springer,牛津出版社,美国科学进步协会(AAAS),美国物理学会(APS),植物生物学会、《浙江大学学报》(英文版)等75 家单位。
国内已研发出两款较成熟的专门软件,且两款软件的核心都是基于数字指纹的抄袭检测方法进行文档相似性检测。一款是武汉大学沈阳副教授研制的“ROST反剽窃系统”软件,目前已在全国20 多所高校院系推广和100 多家期刊社使用。另一款是中国学术期刊电子杂志社与中国知网共同研制的“学术不端文献检测系统”,目前全国已有3000 多家期刊和360 所高校的研究生院免费使用这个软件。ROST 系统和CNKI 系统当前的一个主要差异在于其使用的参照文档数据库不同。“ROST 反剽窃系统”软件通过将切割文档后混合引擎将其与188 亿个网页和490 万篇文献进行模糊匹配,标示出每个文本块与文献库中的某些文献的最大相似度。中国知网从2006 年开始立项研发基于全文的“学术不端文献检测系统”,以《中国学术文献网络出版总库》为全文比对数据库,采用基于数字指纹的多阶快速检测方法,支持从词到句子、篇章级别的数字指纹,可对图、表等特殊检测对象进行基于标题、上下文、图表内容结合的相似性检测处理,还可根据特定的概念、观点、结论等内容进行智能信息分类处理,实现语义级别内容的检测。中国知网拥有文献量居国际国内同类产品之首,这为其进行检测提供了丰富的对比文献资源。科技期刊检测系统已经检测的10 多万篇科技文献中,文字复制
比超过30%的超过1 万篇;学位论文检测系统检测5000 篇学位论文,重合字数超过1 万篇的论文约1000 篇。目前Internet 上还有一些提供文本抄袭检测服务的网站和工具。例如,Plagiarism、mydropbox、WordCheck 等。针对中文的paperpass 提供法学论文和教育社科类论文的免费检测服务;中国搜网站的文章照妖镜工具基于谷歌和百度提供免费的检测服务;拷克提供针对网页内容抄袭的免费检测服务。
5 抄袭检测技术存在的问题
到目前为止,抄袭检测技术主要集中在文档复制检测上,针对图像、音频、视频的抄袭检测还有赖于基于内容的检索技术更进一步的发展。各系统集中解决在同一语种范围内的抄袭检测问题,对于中、外文间经过翻译后进行的抄袭行为还没有很好的检测解决方案。针对文档的抄袭研究已经取得了很多成果,但是针对论点(或创意)进行的抄袭一般难以直接断定出来,还需要进一步进行人工判定。另外,对已经明确在参考文献中列出的部分,有的检测系统在判定抄袭的时候并未进行特别处理。
赵春燕 李峣
北京政法职业学院