论文检测系统在医学期刊有哪些应用
目的:通过“科技期刊学术不端文献检测系统”(AMLC)在医学期刊编辑工作中的应用,为抵制医学期刊不端行为提供方便。方法:本刊从2010年1~4月应用“中国知网”免费提供AMLC系统对来稿通过文题、作者、引文等方面进行检测,同时,对2010年第1~3期已进入编辑排版、校对的文章进行检测。结果:通过检测及分析,结合医学期刊实际特点,界定文章抄袭或重复发表标准为:(1)与已发表文献的重复比例大于80%;(2)重复比例介于60%~70%,且论文的核心内容(如:临床资料,结果数据和讨论部分)重复率大于85%。结论:由于AMLC是近年开发研制的,我们编辑部也处于刚刚使用阶段,需要不断积累经验,力争从源头上杜绝学术腐败。
“学术不端行为”是1992年由美国国家科学院、国家工程院和国家医学研究院组成的22位科学家小组给出的定义:在申请课题、实施研究报告结果的过程中出现的捏造、篡改或抄袭行为。其主要限定在“伪造、篡改、抄袭”三者中。学术不端行为在国内有越演越烈之势。2009年3月,教育部发出《关于坚决抵制学术不端行为的联合声明》[1]。由清华大学中国学术期刊(光盘版)电子杂志社与同方知网公司合作开发了“科技期刊学术不端文献检测系统”(AMLC),开辟了采用技术手段防范学术不端行为的新方法,极大地提高了编辑工作效率。
1AMLC的历史背景
学术不端行为由来已久,国内外皆有之,但近年来,国内这种行为有越演越烈之势,2008年10月,武汉第7届全国综合类人文社会科学期刊高层论坛一致通过率由50家期刊共同签署的《关于坚决抵制学术不端行为的联合声明》[2];2008年年底,中国学术期刊(光盘版)电子杂志社与同方知网技术有限公司合作成立的CNKI科研诚信管理系统研究中心研制开发的不端文献检测系统,包括科技期刊学术不端文献检测系统(AMLC)、社科期刊学术不端文献检测系统(SMLC)和学术论文学术不端行为检测系统(TMLC),为学术期刊界反对学术不端行为提供便利条件。
AMLC是以《中国学术期刊网络出版总库》为全文比对数据库,可对不同的文档类型(目前包括:DOC、TXT、CAJ、KDH、NH、PDF五种格式),从词、句子到段落等方面,可检测抄袭、伪造、一稿多投、篡改、不正当署名、一个成果多篇发表等多种学术不端行为的检测。该系统主要功能为科技期刊编辑部对已发表文献检测、论文实时在线检测、问题库查询以及建立比对数据库功能[3]。
2AMLC在医学期刊编辑工作中的应用
2.1对医学文献抄袭的界定 AMLC在用户说明中指出,用户稿件的检测主要是检测是否存在抄袭、一稿多投和已发表文献的不当署名等学术不端行为,并依严重程度给出一个权值进行度量。该系统按照重复文字的相似比例,其中抄袭可以分:(1)按抄袭内容分类,包括①论点抄袭;②论据抄袭;③表格数据抄袭;④图像抄袭;⑤概念抄袭(定义、原理、公式等);⑥文章套改;⑦引言抄袭。(2)按文字篇幅分类,①句子抄袭;②段落抄袭;③章节抄袭;④全篇抄袭。AMLC以10%、30%和50%为界划分为“轻度句子抄袭(<10%,且各连续重合文字均<200)、句子抄袭(≥10%,轻度段落抄袭(≥10%~<30%,且存在连续重复文字≥200)和整体抄袭(≥50%,重复文字大于总字符数的1/2),并且有相应的绿、黄、橙、红颜色提示。
2.2在初审中应用 编辑部对来稿,通过进入AMLC系统后,可以进行文章题目,作者和单位填写,检测项目包括:提交论文,检测结果、结果查询、已发表文献检测、问题库查询、黑名单等,检测结果以四种颜色显示:绿色表示无问题记录,黄色表示重合字数大于1000字或重合百分比小于40%,橙色表示重合字数大于5000字或重合百分比在40%~50%之间,红色表示重合字数大于10000字或重合百分比大于50%。对检测论文点击“提交论文”,上传文件后,很快就可以得到检测结果,不仅可显示文字复制比,还将相似文献一一列出,包括文献出处,刊出具体时间,而且可以对相似文献进行全文对比,通过对比,编辑可以界定出该论文是否有抄袭现象,抄袭程度,检测结果列出是句子抄袭,还是段落抄袭。我们对2010年新投稿件259篇和2010年第1~3期编辑校对稿件进行检测,结果显示,详见表1,并对检查发现问题稿件进行分析[4]。
3AMLC检测医学论文结果分析
为了使AMLC系统更适合本刊实际特点,我们对经检测认为有问题(我们结合本刊实际,确定为相似度≥85%论文重点排查,首先利用AMLC系统进行全文比对,将相似论文逐一对比,发现有如下特点。
3.1有利于快速检测不断学术文献。经检测结果文献重复率≥85%,诊断结果为“整体抄袭”(多源或单源)共发现有11篇文章,又将每篇文章通过全文对比,在“百度”进行文题、关键词对比,最终发现有4篇为完全抄袭,在对作者进行沟通核实后按退稿处理。
3.2对具体文章具体分析由于医学论文其有其固定格式,例如:临床医学类论文基本格式包括:引言、临床资料、治疗方法和结果,讨论等几部分,检测中发现,AMLC对数字和符号不敏感,因此,同一句话即使其中数据或符号不同,也会被认为是文章重复,在检测中应认真对待。多数有重复文字的论文是按其医学论文固有格式书写,但应有自己的治疗结果,讨论部分应有自己的观点,但往往引用文献大多数容易雷同,特别是对于基层医院医生,在治疗同一种病时,在治疗方法,用药及疗效等不尽相同,这可以说是医学论文的一种普遍存在的现象;没有创新,仅局限于用他人方法重复自己的实验。这就需要我们编辑怀有极端的责任感,可以通行不同方式进行查重,及时同作者沟通,通过编辑同作者的沟通,能很快判定该文章是否为抄袭,如果一篇文章是作者自己写的,则对文章方法、数据了如指掌,对答如流。
3.3医学论文容易出现重复文字的论文(1)同一单位不同作者研究同一批病例。在相同时间研究同一批病人,医生从诊治方面进行研究,而护士是对该批病人从护理角度进行书写,但存在病例临床资料,治疗方法相同。(2)同一研究课题系列研究。一些研究生毕业论文,由于篇幅较长,存在分段拆分成几篇论文,但其引言、方法及结论往往相同。(3)投稿重复现象时有发生。同一单位同事甲作者现投一篇论文,编辑部审查结果是退稿,时隔半年或一年,乙作者又将该稿重新投稿。这种现象如果是在文题相同情况下,编辑部利用自己的稿件登记系统很容易查重,但如果是将文题进行简单修改,仅通过文题则无法查重,只能通过AMLC系统进行全文查重。(4)对论文表格相同的论文,其多半为整体或部分抄袭,应为论文表格是作者通过自己收集的数据,并进行统计学处理的,较难出现完全重复现象,还有参考文献重复,若完全重复,可视为抄袭。
4AMLC应用体会及编辑的应对措施
我们编辑部应用了AMLC体会有如下优点:(1)有利于初审。对电子稿件可以在初审时,利用该系统对文题、作者姓名及参考文献快速查询,上传文件后,很快可以得到检测结果,不仅显示文字复制比,还将相似文献列出,给编辑审稿工作提供方便。我们通过AMLC检测,将文献重复率≥85%,检测结果为“整体抄袭”的文章进行重点排查,再通过其他方法核查,如通过“百度”等进行检索,曾发现有个别文章从头到尾都是复制别人的,通过同作者核实后,直接退稿,保证杂志质量,维护《著作权法》。(2)有利于选择审稿专家。编辑部对来稿通过AMLC检测,可对列出相似文献点击“全文比对”,在显示两者相同部分外,还可查询相关作者信息,特别是研究生毕业论文,通过查询,寻找专业对口研究生导师、专家进行审稿。(3)有利于对稿件修改情况判断。在稿件初审时,将通过检测可以送审稿件点击“加入个人比对库”,在通过终审后,进行修改后,可通过AMLC检测,可将修改前后的内容进行对比,对前后不同地方(即为修改之处)就可显示,省去编辑再同作者的联系。
总之,“学术不端文献检测系统”给编辑部工作带来极大的方便,AMLC的成功开发,为学术期刊抵制一稿多投,重复抄袭等学术不端行为提高了有力武器,我们应加强宣传,更好地发挥其作用。论文抄袭现象已经引起世界各国学术界的广泛关注,并就抄袭论文识别技术进行了深入研究[5,6]。目前,许多编辑部也制定了处理抄袭现象的制度,但要遏制论文抄袭现象,仅靠编辑的力量是远远不够的,需要整个社会共同努力。我们在使用AMLC检测文献过程中体会到,不能过分依赖AMLC,它只是一个辅助系统,编辑的责任心,精湛的专业技术才是办好杂志的根本。
陈欣 中国冶金工业医学杂志编辑部114002