学术不端文献检测系统的使用与建议【经验畅谈】

文章介绍了CNKI和万方学术不端文献检测系统的功能特点和使用情况,分析这两种文献检测系统的主要检测指标和检测报告,探讨文献检测系统在实际应用中的缺陷,并提出相应对策及建议。

在申报职称申报课题和申请学位过程中,发表大量的研究成果和科技论文,研究人员在查阅和参考前辈的研究资料时,有意或无意中形成论文内容的抄袭或重复,导致学术不端行为的出现。在纸质年代很难发现学术不端行为,如今绝大部分论文都已数字化并被数据库厂商全文收录,海量的论文题录数据和全文数据,为反学术不端行为提供了有利条件。

1.软件介绍

学术不端文献检测系统现主要有3种CNKI学术不端文献检测系统、万方论文相似性检测系统和武汉大学自主开发的ROST反剽窃系统。

CNKI学术不端文献检测系统分为6个子系统:学术不端文献检测系统VIP版学位论文学术不端行为检测系统(TMLC2)科技期刊学术不端文献检测系统(AMLC2)社科期刊学术不端文献检测系统(SMLC2)大学生论文抄袭检测系统中学生作文检测系统.还有两套针对英文文献检测定制的系统英文检测系统和中英文对照检测系统VIP版包含TMLC2AMLC2和SMLC2,适用于研究生毕业论文和科研论文检测,检测范围包括:中国学术期刊网络出版总库中国博士学位论文全文数据库中国优秀硕士学位论文全文数据库中国重要会议论文全文数据库中国重要报纸全文数据库和中国专利全文数据库。

万方论文相似性检测系统Beta版,相当于CNKI论文检测的VIP版,可同时用于检测学位论文和期刊论文,检测范围包括:数字化期刊全文数据库学位论文全文数据库和学术会议全文数据库。

ROST反剽窃系统原软件最新为6.3.5.93版,分为3个部分:全网检索本地文献库对比少量文献内存对比检测范围包括188亿个网页和490万篇论文。该软件在发布初期引起广泛关注,但随着专业数据库商推出新的检测系统,武汉大学逐步放弃了反剽窃研究,转向内容挖掘研究,仅将ROST反剽窃的全网检索部分整合到了ROSTCM内容挖掘系统中的相似分析模块。

本文就CNKI学术不端文献检测系统VIP版和万方论文相似性检测系统Beta版开展论文检测工作的相关情况进行介绍和探讨,ROST反剽窃系统现在很少正式运用暂不做介绍。

1.论文检测

在高校,论文检测系统主要在以下几个部门使用:人事处用来检测职称评审论文,研究生处用来检测研究生毕业论文,教处务用来检测本科毕业论文,科技处用来检测课题申报和结题材料,编辑部来用检测论文稿件。现正逢图书馆加强学术服务力度的时机,部分文献检测工作也正由其他部门逐步转向图书馆图书馆,将论文检测作为一项读者服务,代替其他部门开展文献检测,浙江理工大学(下称我校)就属于这种情况。

我校图书馆现主要开展两项检测服务:教师职称论文检测和研究生硕士学位论文检测。读者提交论文电子版(Word或pdf格式),检测后发送检测报告。为便于介绍论文检测中一些需要关注的要素现,将CNKI和万方两套检测系统相关参数列表。

这两套系统均支持客户端软件检测和Web在线检测客户端软件检测,可进行检测任务管理多文档批量检测,检测速度比Web检测快,Web在线检测一般用于单文档或文字段落检测速度稍慢。在检测前需要安装好客户端软件或登录Web检测网站并使用授权帐号登录检测系统。

送检论文一般采用DOC和PDF格式这两套系统均支持常见文本文档格式,CNKI还支持自有格式CAJKDHNH和邮件格式EML。开始检测时需要注意以下三点明确论文送检目的。即送检论文用于职称评审论文答辩还是用于课题申报或结题。虽然检测操作过程相同,但弄清送检目的有助于检测人员关注检测重点,送检论文属于未发表文献还是已发表文献,如果属于后者在处理检测报告时注意去除该论文与自身重复造成较高的重复比,以免给出错误结论,送检文献属于期刊论文,学位论文还是文字段落。不同论文类型有不同的格式规范因此文档结构也不同比如学位论文有声明致谢,而期刊论文一般没有。在检测时有的只要求检测正文有的要求检测正文+参考文献,有的要求检测摘要+正文+参考文献。有的要求全部检测包含声明和致谢。总的原则是参与检测的内容越多。重复的风险越高早期文献检测速度较。

早期文献检测速度较慢,CNKI和万方检测系统都优化了自己的检测算法,使用Web检测一篇学位论文全部内容的时间不会超过1分钟。检测结束后提示保存检测报告,CNKI输出报告格式为网页格式可直接双击后用浏览器打开,万方输出报告格式为PDF,需预先安装PDF阅读器。

3.报告分析。

检测报告内容主要分三个部分,一是送检论文的基本信息包括论文标题检测范围和检测日期,二是检测指标值CNKI检测提供文字复制比TR,重合字数CNW两个重要指标还提供其他很多辅助指标值,万方检测主要提供相似比。三是重复内容列表包括文字重复片断相似论文标题作者和发表时间。四是检测结论。

CNKI检测报告与万方检测报告的检测指标值有一定差异CNKI检测报告除提供文字复制比TR,重合字数CNW两个主要指标外,还提供最大段长LPL,平均段长APL,首部复制比HR和尾部复制比ER等,在内的9个指标CNKI检测字数较少的论文,如期刊论文时使用文字复制比TR来衡量重合度检测字数,较多的论文如学位论文时使用重合字数CNW来衡量重合度。万方检测使用相似比衡量重合度等同于CNKI的文字复制比TR 万方没有提供与CNKI重合字数CNW等同的指标。

CNKI检测报告与万方检测报告列举的重复内容项设置相同,在表现形式上,各有所长CNKI检测报告逐一列出相似论文标题作者来源和发表时间特别标明该论文是否被引用并且在该论文下逐条列出重复片断。然后在被检论文的原文中用带下划线红色字体表示重合文字。万方检测报告列出相似论文作者典型相似论文标题来源和发表时间特别标明该论文是否参考文献然后以左右两栏相互对照的形式列举送检论文和相似论文重合片断。相同之处在于二者均可列出相似论文来源作者和重合片断送检论文是否存在抄袭现象。抄袭了哪几篇论文和哪几位作者的论文,结果一目了然。不同之处在于CNKI直接在原文中标识抄袭的文字字数比较直观且容易理解,万方将抄袭部分与被抄袭文献的片断以左右表格对照形式列出突出抄袭的文字段落。在检测结论上CNKI检测报告分出五大审查类型,从轻度句子抄袭、句子抄袭、轻度段落抄袭、段落抄袭、整体抄袭,每种审核类型又分为单源和多源两种。最后提供检测人员填写的审核意见输入栏。万方检测报告以总相似比作为最终参考结论未设置审核意见栏。

总体来说CNKI与万方检测报告的内容项设置基本一致,在检测准确性上主要存在两方面的差异,第一相对而言CNKI收录的文献比万方收录的文献内容更丰富,一些CNKI的检测范围比万方更广,所以通常情况下用CNKI检测的重合度可能会大于用万方检测的重合度,可以理解为CNKI检测更严格一些,第二送检论文字数多少会导致不同的重复度,衡量标准CNKI提供复制比和重合字数指标,万方仅提供检测相似比没有提供重合字数,期刊论文一般1万字以下,送检论文为期刊论文时,使用CNKI的复制比或万方的相似比衡量重合度是可行的,硕士论文3-5万字,博士论文10万字左右,送检论文为硕博论文时使用万方的相似比不够准确,使用CNKI的重合字数指标更合适,因为当论文字数较多时,较小的相似比也会造成较高的重复字数。

4.检测缺陷

从我们使用CNKI和万方检测系统开展论文检测的工作情况来看,检测系统对大部分论文进行了较为准确公正的鉴别,给出的检测报告有较强说服力。但在某些方面检测系统还存在一些问题和缺陷,一定程度上影响了检测的准确度和效率。

其一论文自身对比,同一作者论文对比。送检论文通常会与当前论文正式发表的版本相比较,也会与送检作者的其他论文进行比较,将导致检测结果显示较高的重合度,CNKI检测系统有三个选项:去除第一作者的论文,去除送检测论文所有作者的论文,包含论文作者自己的论文。为保证检测结果的准确性,一般不与该论文作者自己的文章进行对比,但这样就不能排除文章重复发表和自己抄袭自己的因素。万方检测时暂时没有去除同名作者的选项CNKI检测虽然有此选项但不能很好区分同名不同人的情况。

其二检测结果显示两篇论文存在抄袭现象,不能判断到底谁抄谁。论文检测系统可以检测到两篇论文相互重复的部分,表示存在抄袭嫌疑。但是,先发表的论文与后发表的论文如果存在部分重复的问题,软件暂不能区分谁抄谁的问题,只能由人工进行判断,最简单的判断方法就是根据论文发表时间的先后,如果先发表的论文与后发表的论文有重复,这样的重复应该去除为好。

其三不同论文排版到同一页面时会导致检测系统给出错误结果。期刊出版社在排版时,如果某篇论文最后一页不足一页时,通常会标示为下转至某一页,然后在那一页上与其他论文的最后一页排版,在同一页这样在进行论文检测时,该页将会在两篇论文中同时出现,造成本来毫不相干的两篇论文显示在内容上有重复,这种情况也应该去除为好,但软件暂不能很好解决这一问题。

其四针对外文文献和图书的不端检测有待改善。CNKI推出了英文检测系统和中英文对照检测系统,旨在加强送检文献为英文的检测,但检测范围中,中文图书和外文文献都比较匮乏,CNKI资源总库中仅包含Sprin ger图书,Sprin ger期刊,Earthscan期刊,MultiScience期刊等题。录数据库英文文献保有量很少而且没有全文,CNKI和万方资源总库都没有俄德日等外文文献也没有中文图书。在这种情况下其实反剽窃的能力非常有限,因为检测范围中文献资源有限。由此可以预期,超星和书生将来可能会在图书领域开展学术检测,以弥补中文文献检测的一个漏洞。

5.工作建议

论文检测的目标不同,检测部门不同,对论文检测有不同的要求,本校对硕士学位论文的检测要求为相似度不超过20% ,不计算与自身学术论文的重复。在具体开展论文检测时以下三个问题值得关注。

第一、制定重复度标准,不同类别的文献不同,目的应分别制定检测标准,标准要参考实际情况不宜过高也不宜过低。比如期刊论文如果重复度为30%算合格,则博士论文30%的重复度会造成数万字的重复,抄袭现象就显得非常严重。如果送检论文供评审职称所用,重复度的控制是否就应该严一点,毕竟这是考核研究人员的学术成绩,如果送检论文是硕士学位论文重复度的控制是否就应该放宽一点,因为硕士研究生的研究时间一般都只有一至两年时间还比较短,具体制定何种标准控制重复度为多少,可以参照行内标准,或由相关部门根据政策要求和本单位实际情况制定。

第二送检论文与作者本人发表的文献存在重合现象时,是否可算做抄袭行为?如果算,加大通不过审核的风险,如果不算,有重复发表嫌疑这个问题与制定重复度标准的问题类似,如果本人发表的论文参与检测,提高了检测标准,对送检人员不利,反之降低了检测标准,对送检人员有利。那么是否包含本人发表的论文,也应该认真对待。

第三检测报告的解读公布程度和公布对象。由于检测系统在不断完善中,检测过程中难免有错误数据发生,如果出现这种情况应如何解释归谁解释,需要一个应急机制。同理,检测报告是否仅对参检人员本人公布?公布程度如何?只公布数值还是整个报告全部公布?这些问题都应该深入研究并解决,不然在具体工作中很容易引起纠纷。

论文检测工作涉及读者的切身利益,读者关心的是制定何种合格标准,检测结果是否可以达到标准。图书馆是服务部门而非职能部门,在标准制定方面无充分依据,最好只参与文献检测服务,但检测报告由图书馆出具,自然赋予了对报告的解释权,为尽量减小与读者的摩擦,要非常熟悉相关部门制定的检测标准和规范,站在读者立场对检测报告进行合理解释。

参考咨询工作责任体系的控制要集中关注责任体系中的不确定因素,以保证参考咨询团队适应不断变化的用户信息需求,同时为参考咨询工作形成创新压力。参考咨询工作责任体系中不确定因素的最佳掌握方式是回访策略,回访策略的着眼点来自于三个方面:一是服务对象的回访,二是知识库的回访,三是工作环境的回访。服务对象的回访可以追踪服务对象对信息服务的态度和新的信息需求,在修正关键绩效变量准确的用户信息需求定位的同时更新知识库,从而保证其他两个关键绩效变量的实现。知识库的回访需要密切关注服务学科领域的发展动态,利用信息技术手段追踪可以为知识库提供更新的信息源。工作环境的回访包括工作人员的回访服务,手段的回访信息资源的回访。工作人员的回访有助于参考咨询工作团队管理,为合适的人确定合适的工作领域,服务手段的回访要不断寻找新的信息技术手段提升参考咨询工作服务能力,信息资源的回访要求参考咨询工作人员熟练掌握已有信息资源的资源特点和利用技巧,并及时掌握新的信息资源的资源特点和利用技巧。

作者简介

黄红梅1975- 女,副研究馆员,大连外国语学院图书馆,辽宁,大连,116044

王 微1981- 女,馆员,大连外国语学院图书馆,辽宁,大连,116044


上一篇:学术不端文献检测系统的功能和作用
下一篇:学位论文学术不端行为检测管理策略研究
扫描二维码