山东省部分高校论文学术不端检测分析 及学术不端检测系统使用体会
目的 探讨山东省内部分高校职称评审论文学术不端现状及学术不端检测系统的应用价值。方法 使用中国知识资源总库科技期刊学术不端文献检测系统和万方数据论文相似性检测系统,对2012-2015 年山东省部分高校职称论文进行检测,并使用 Excel 2007 对检测结果进行统计分析。 结果 共计检测 9565 篇论文,其中中文论文 7437 篇,外文论文 2128 篇。每年均有 90%以上的论文总复制比低于 30%,2013-2015 年均有 94%以上的论文单篇最大文字复制比低于 20%。结论 山东省高校论文文字复制比仍有下调的必要,小部分文献单篇复制比过高;学术不端文献检测系统存在检测盲区。
近年来,学术界屡屡爆出学术造假、论文抄袭等学术不端事件,本科毕业论文和研究生论文造假新闻也时常见诸媒体报道。2015 年,英国大型医疗科学学术文献出版商 BioMed Central 因同行评审涉嫌造假撤销 43 篇论文,其中 41 篇的作者来自中国大陆[1]。2017 年 4 月,世界最大学术出版商之一的施普林格(Springer)宣布撤回发表在 2012-2016 年《肿瘤生物学》(Tumor Biology)上的 107 篇论文。这 107 篇论文全部与中国研究机构有关,涉及 524 位作者,撤回原因是“同行评议造假”[2]。为了反学术不端,国内各大数据库都推出了学术不端检测系统。山东中医药大学引进中国知识资源总库( CNKI )科技期刊学术不端文献检测系统(AMLC)和万方论文相似性检测系统,依照山东省教育厅有关职称论文学术检测相关要求,对省内部分高校提交的职称评审论文进行检测。现就检测结果进行统计分析,从一个侧面了解本省当前学术论文学术不端情况,为制定相关措施提供参考。
1 资料与方法
1.1 数据来源
从 2011 年开始,山东中医药大学图书馆承担了山东省教育厅高校职称论文的学术检索工作,检测论文来自省内医学院校和非医学院校的生物医学类论文。因 2011 年山东省教育厅对学术检索设置的指标(密切相关文献数量、相关文献数量和内容重合
率)与 2012 年之后有显著不同,故 2011 年的职称论文未纳入此次统计范围。根据山东省教育厅有关职称论文学术检测要求,对提交论文进行如下检测:⑴中文论文原文依次通过 CNKI、万方数据知识服务平台和维普期刊资源整合服务平台检索下载。⑵中文论文检测首选AMLC,CNKI 收录不全的期刊使用万方论文相似性检测系统(CNKI 未收录 2007 年之后中华医学会系列杂志)。⑶外文论文使用 AMLC 检测(外文论文由作者单位审核后提交电子版原文,在 AMLC 中检测;检测机构不能下载外文原文)。⑷进行学术不端检测的截止日期统一为论文的收稿时间,没有注明收稿时间的论文则使用发刊时间。
1.2 纳入标准
省内医学院校和非医学院校共 15 所高校提交的生物医学类论文。
1.3 排除标准
⑴刊载论文的刊物未收录于数据库中,无法核实原文,刊物存疑。⑵所提交的论文不是期刊论文或会议论文,是以图书形式发行的论文集论文,山东省教育厅组织专家讨论认为此类论文水平不能等同于公开发表的期刊论文,不予以检测。⑶数据库已收录了刊载论文的刊物,但因数据库时差未收录刊载的当期;或因数据库回溯不全未收录刊载当期或收载当期的目录不全;或查到的期目录未包含作者提交的论文,论文存疑。
1.4 统计方法
2012 年,采用“去除本人学位论文会议论文文献复制比”指标,对作者学位论文、会议论文的重合部分予以排除后,计算总复制比,未设“单篇最大文字复制比”指标。2013 年开始,增加“单篇最大文字复制比”指标。复制比以 20%、30%、50%、90%为分界点划分不同区间,统计每个区间内文献篇数及所占百分比。将各年份数据输入 Excel 2007 进行统计分析。
2 结果
2012-2015 年共计有 9565 篇论文纳入统计范围,其中中文论文 7437 篇,外文论文 2128 篇(均为英文)。
2.1 复制比
2.1.1 去除本人学位论文会议论文文献复制比 统计表明,历年“去除本人学位论文会议论文文献复制比”(简称“总复制比”)合格率(<30%)在90%以上(见表 1)。每年均有>5.00%的论文总复制比高于 30%,有≥1.52%的论文总复制比高于50%,共有 16 篇论文总复制比≥90%。
2.1.2 单篇最大文字复制比 2013-2015 年“单篇最大文字复制比”(简称“单篇复制比”)合格率(<20%)均在 94%以上(见表 2)。
2.2 复制比超标情况
2013-2015 年总复制比≥30%的论文分别有128 篇(占 5.41%)、134 篇(占 5.40%)、136 篇(占 9.16%)。2013-2015 年单篇复制比≥20%的论文分别有 101 篇(占 4.27%)、136 篇(占 5.48%)、88 篇(占 5.93%)(见表 3)。2013-2015 年均有一定量论文总复制比<30%但单篇复制比≥20%,提示抄袭可能性大。而总复制比≥30%、单篇复制比<20%,说明与多篇文献相似,只是累积复制比超过30%,还应具体问题具体分析。
2.3 外文论文情况
提交论文语种分析显示,各年份提交的外文论文比例在 20%左右,2013-2015 年呈增高趋势(见表 4)。
3 讨论
3.1 山东省部分高校科研文献学术不端现状
《科技工作者科学道德规范(试行)》对“学术不端行为”的定义是:在科学研究和学术活动中的各种造假、抄袭、剽窃和其他违背科学共同体惯例的行为[3]。2016 年 9 月 1 日开始施行的《高等学校预防与处理学术不端行为办法》,将剽窃、抄袭、侵占他人学术成果,及篡改他人研究成果列在学术不端行为的首要位置[4]。新修订的《普通高等学校学生管理规定》自 2017 年 9 月 1 日起施行,其中规定,对于学位论文、公开发表的研究成果存在抄袭、篡改、伪造等学术不端行为,情节严重的,或者代写论文、买卖论文的,学校可以给予开除学籍处分[5]。国内外普遍成立了第三方独立审查机构,研制了学术不端检测系统。学术不端检测也称为论文相似度检测、论文查重,是通过学术不端文献检测系统对论文的主体进行识别检测的方法,通过系统的运作与计算,以“复制比”或“相似比”的直观形式呈现检测结果。本次统计结果表明,2012-2015 年山东省部分高校职称论文总复制比合格率均在 90%以上,该数值与 CNKI 对 92 万多篇文献的检测结果相当[6]。其中 2012-2014 年均在 94%以上,而 2015 年略低,可能与试点院校放宽提交标准有关。单篇最大文字复制比用于反映是否有单独抄袭某篇论文的可能性,统计显示,2013-2015 年每年均有 20 篇以上的论文与其他某篇论文有 50%以上的相似性,有的甚至达 90%以上。论文总复制比低于30%但单篇复制比高于 20%,提示抄袭可能性大,说明设立单篇复制比指标对防止学术不端有积极的作用。上述结果说明,山东省高校职称论文小部分文献单篇复制比过高,应加强原创性引导。外文论文统计显示,2012 年外文论文比例高于2013、2014 年,原因可能为 2012 年只准许提交 3篇代表性成果,而 2013 年之后可提交多篇论文,检测后选择其中 3 篇进行评审。外文论文比例 2013-2015 年有呈增高趋势,一方面说明各院校发表的外文论文数量在增加,学术成果对外交流增多;另一方面可能是因为目前外文论文检测结果复制比较低,促使作者多发或多提交外文论文。
3.2 学术不端文献检测系统存在的问题
目前学术不端文献检测系统不能完全取代人工对比,仍存在较多检测盲区,现就笔者使用过程中发现的问题列举如下。
3.2.1 合理引用与抄袭的区分 引用政府文件、领导人讲话、权威著作、历史材料、法律法规、诊断疗效标准、操作规程等,被误判为段落抄袭或句子抄袭,导致文字复制比偏高。生物医学领域的论文,很多研究方法和临床诊疗方案是相似的,而且论文的格式基本都是固定的,语句较为简单和通用,如:采用 SPSS 统计软件分析数据,计量资料以 X±S 表示,组间比较采用 t 检验;计数资料组间比较采用 X2 检验;P <0.05 为差异有统计学意义。同一方向的研究往往查询的文献相同、采用的技术和方法一致,就连在术语的应用和语言的表达上也容易造成重复。同一作者在前期研究的基础上继续深入,后期文章中前言文字、研究方法、研究仪器、所用材料、统计学分析等很多文字说明与前期文章一致,甚至会引用前期文章中的数据。中医药类论文经常引用经典语句,检测系统尚不能识别。