香港中文大学谈论文检测系统及其应用-Turnitin助提升学习的效果
- 2015-04-10
- 编辑整理:早检测网
- 标签: Turnitin uk turnitin国际版 turnitin论文检测 反剽窃抄袭检测 学术不端文献检测系统 论文检测
从香港新高中学制谈到目前较多人使用的文献检测系统及其特点,包括中国“学术不端文献检测系统”、美国Turnitin 系统和香港“维诚系统”。除防止抄袭外,指出文献检测系统能提供更多元化的功能,包括收集和评改学生课业、学生讨论和协作的平台等,有助提升学习的效果。
一、引言
2009年,香港开始实施新高中学制,中国语文、英国语文、通识教育、中国历史、设计与应用科技、历史、资讯及通讯科技与视觉艺术等8个科目已全面施行校本评核的制度。校本评核的目的,就是由学校任教老师评核学生的成绩,藉此反映学生在日常学习过程中的表现。至于校本评核的模式,会按不同学科的特点而各有不同。譬如,通识教育科以“独立专题探究”作为校本评核的依据,而“独立专题探究”着重训练学生多角度探究的能力,重视研究方法和分析能力,因此该科的评核重点包括口头报告、制作学习历程档案、实地考察、调查研究、进行实验活动,以及完成专题设计,占学生公开试成绩百分之二十。在校本评核制度之下,学生往往须在课堂外完成课业,而上网搜集数据更是他们常用的方法。无论从课业模式或者课业成绩的角度来说,这种学习模式存在诱因,容易令学生进行不诚实的学习行为,如抄袭、伪造、篡改等。香港考试及评核局亦察觉到这个问题,故在《香港中学文凭考试校本评核简介》(2009年)内,详细提示学生须在作业中注明参考资料的出处,以及不可触犯抄袭等行为。诚然,伪造和篡改这两种不诚实的学习行为较难杜绝,但抄袭的行为则可以利用各种文献检测系统侦测出来。本文旨在介绍目前较多人使用的文献检测系统及其特点,包括中国“学术不端文献检测系统”、美国Turnitin 系统和香港“维诚系统”,并且说明香港中文大学使用“维诚系统”的经验。
二、检测系统架构
一般来说,用户只须在用户接口提交需要检测的文件,文献检测系统就会自动核对庞大的文献数据库,然后反馈检测结果给用户。其架构大致如下:
三、学术不端文献检测系统
“学术不端文献检测系统”为中国学术期刊(光盘版)电子杂志社与同方知网(北京)技术有限公司共同研发,2008年12月正式开放使用。该系统利用“中国知识资源总库”(CNKI)内数量庞大、类型不同的文献数据作为检测的对象,包括中国内地出版的期刊、学位论文、会议论文、报纸、年鉴、工具书、专利、外文文献、学术文献引文等与科学研究、学习相关的主要资源共6000万条学术数据,以及互联网上的网页资源、数百万条英文文献数据等。该系统支持繁、简体中文及英文文献,并可检测整个活页夹、压缩文献、单篇文献等。技术方面,利用CNKI 自行研发的“自适应多阶指纹”特征检测技术,对篇章、段落、句子各层级进行检测,而且能够检测文献改写、多篇文献组合等各种文献变形的不实行为。在检测报告中,不仅列出检测文献的文字复制比例,还详细列出检测文献中每一段相同文字的详细出处,并准确标示每一段相同文字的具体位置。截至2009年8月为止,该系统已在全国300多家高校、科研院以及3000多家期刊社广泛应用,有助提高国内学术诚信的风气。
四、Turnitin 系统
Turnitin 系统是由iParadigms, LLC 公司研发的网上文献检测系统,提供文献原创性检查及显示疑似抄袭的功能。Turnitin 系统主要由3个部分组成:①OriginalityCheck 系统提供检测文献的功能,确保文献的原创性;②PeerMark系统设置同侪评核作业的功能,鼓励学生参与讨论及协作,提升学习效果;③GradeMark 系统让老师直接在网上评改学生的课业,提高评改课业的效率,同时可追踪学生的学习进度。Turnitin 系统利用专属的检测程序,把文献拆解为电子指纹图的文本串,然后核对数据库内其他文献的文本串。由于各文本串不尽相同,故此核对不同文献内的文本串有助分析文献的相似度。除了核对本身贮存的数据库外,Turnitin 系统亦会核对其他大型的学术数据库,提升检测文献的准确性。Turnitin 系统的文献数据量十分庞大,收集逾2亿份学生课业、140亿项网页、100万篇论文等。常用的电子学习平台如Blackboard、Moodle、WebCT、ANGEL、Desire2Learn、Instructure Canvas等均支持Turnitin 系统,使文献检测的操作更加方便。Turnitin 系统支持常用的文献格式如MS Word、WordPerfect、PostScript、PDF、HTML及RTF 等。目前,全球126个国家、逾1万所院校及中学采用Turnitin系统,其中包括香港大学、浸会大学、香港理工大学。
五、维诚系统
“维诚”(VeriGuide)系统的前身是“剽检通”(CUPIDE),由香港中文大学工程学院于2005年开始研发,2006 年正式推出使用,2009 年采用现名。“维诚”系统是全球首套可同时检测繁、简体中文及英文文献的自动系统,旨在提高和维护学术诚信。“维诚”是建立在互联网上的应用系统,透过先进的相似性检测程序,供用户进行文献检测的操作。该系统核对的文献包括本身贮存的文献、互联网上的文献及其他大型学术数据库的文献。“维诚”可提供两种类型的统计报告:可读性报告及原创性报告。前者显示文献中的英文文章和中文文章的通顺程度,以便对文献的可读性进行评估;后者结合相似性和可读性统计,透过段落图表、并置对照等方式显示文献的原始内容及拟似内容。其中,段落图表有助老师判断文章内各段落的差异,从而判断整篇文章的原创程度。另外,“维诚”亦可作为课业收集系统,存取容易,方便教育机构建立及维护课业数据库,以及追踪及跟进学生的写作能力,有助改善学生的学习效果。“维诚”支持各种常用的文献格式,包括Adobe Acrobat PDF、MS Office、OpenOffice 等。香港教育局、考评局、香港教育城、香港中文大学及东华三院小区学院、香港公开大学、树仁大学、职业训练局、北京大学、澳门理工大学、泰国国王科技大学、Taylor and Francis Asia Pacific 等机构已采用“维诚”系统。
六、香港中文大学的经验
自2006年开始,香港中文大学采用“维诚”系统(包括前身“剽检通”)至今,积累了丰富的经验。香港中文大学工程学院计算器科学与工程学系金国庆教授等总结经验时指出,采用“维诚”系统需要面对的问题包括政策及行政、版权及私隐、操守及纪律等,并提出以下解决方案:
政策及行政
香港中文大学最初推行“维诚”系统时,采取自愿递交作业的政策。后因反应有欠理想,由2008-2009年度开始执行强制递交作业的政策。如果作业的档案是“维诚” 系统支持的格式如MS Office、PDF、HTML、ZIP等,学生必须透过“维诚” 系统递交作业,其他作业如美术创作、建筑图则、计算机程序等则获豁免。学生递交作业时,必须输入作业编号及截止日期,“维诚”系统按时核对作业,并将可读性报告及原创性报告与学生作业以电邮方式发给教师,以及打印收据及诚信声明,学生签署声明后与纸本作业一并递交给教师。
版权及私隐
诚信声明列明递交作业的学生拥有该作业的版权,并授权大学及“维诚”系统在隐名的情况下供日后核对其他学生作业,以及进行研究及统计工作。登入“维诚”系统时,学生必须输入香港中文大学资讯科技服务处校园电邮系统的户口,经过核对后方可进入系统。另外,“维诚”系统设有防火墙,阻止黑客入侵。虽然香港中文大学有强制递交作业的政策,教师仍可因隐私的原因移除个别作业。所有作业永久储存前,“维诚”系统会删除作业中学生的名字及编号,有助保障隐私。
操守及纪律
2008年,香港中文大学设立题为Honesty in Academic Works: A Guide for Students and Teachers网页,详细开列正确引用参考文献的方法,并且说明学术诚信的规则以及处分的机制。简言之,香港中文大学执行“零容忍”的政策。当教师透过“维诚”系统确定涉嫌剽窃案的个案后, 会交由纪律委员会进行调查,并与有关学生会面。如剽窃行为属实,纪律委员会会决定纪律处分,并把有关决定通知学生。最严重的处分是全科打零分。另外,香港中文大学设有上诉机制,有关学生如不服纪律委员会的决定,可向大学教务会上诉。对于严重剽窃的个案,大学教务会有权作出更严厉的处分,包括要求学生退学。
七、结语
2011年1 月,香港教育局举办了两场“推动原创学生作业研讨会”,既谈到学生原创作业的概况,亦介绍了防抄科技的原理。由此可见香港学界对学习诚信的重视。毫无疑问,文献检测系统能够协助老师有效预防学生的抄袭行为,令学生更加重视学习诚信,从而建立正确的学习态度。值得留意的是,从计算机信息业界过去数年的发展来看,文献检测系统已不仅限于防止学生学习不实的行为,也是老师收集和评改课业、学生讨论和协作的平台,提供更多元化的功能,有助提升学习的效果。