相似比例在科技论文剽窃检测中的适用性评价

doi:10.11946/cjstp.202105310452

摘要/Abstract

摘要：

【目的】 考察查重报告中相似比例作为稿件重复与否判断标准的可信度,并识别错判原因。【方法】 对CrossCheck/iThenticate生成的642篇查重报告进行人工核查,采用分类算法的评价指标对相似比例的可信度进行评价,并分析错判原因。【结果】 整体相似比例[包括总相似比例(TS)和主体部分相似比例(MS)]和单篇相似比例(SS)判断法的正确率均小于75%,SS法的召回率(85%)和精确率(47%)平衡协调较好(F₁=0.61),3种判定方法按照相似比例可信度的排序为SS法、MS法、TS法,但仍存在大量错判案例。【结论】 设定合适的阈值,MS和SS可作为判断稿件重复与否的参考,但仍需对易出错条目进行人工核对,不宜过度依赖查重系统的检测结果。

关键词: 科技期刊, 稿件, 剽窃, 相似比例, 指标, 评价

Abstract:

[Purposes] This study intends to evaluate whether the similarity indexes in plagiarism check reports are reliable and analyze the reasons for the unreliable cases.[Methods] The plagiarism check reports of 642 papers yielded by CrossCheck/iThenticate were examined. Indexes of the sorting algorithm were used to assess the reliability of the similarity indexes and the reasons for the unreliable cases were analyzed. [Findings] Either overall similarity index percentage [including the total similarity (TS) and the main-body similarity (MS)] methods or single similarity (SS) index percentage method had an accuracy of <75%. With recall of 85% and precision of 47%, SS method had an F₁ of 0.61. The reliability reduced in the order of SS method, MS method, and TS method. Meanwhile, a great number of manuscripts were incorrectly judged according to the similarity index percentages.[Conclusions] MS and SS can be used as references on condition of appropriate maximum limits, but manual double check is necessary, especially for the error-prone items.

Key words: Scientific journal, Manuscript, Plagiarism, Similarity index, Index, Evaluation

张姣. 相似比例在科技论文剽窃检测中的适用性评价[J]. 中国科技期刊研究, 2021, 32(11): 1355-1361.

ZHANG Jiao. Applicability of similarity indexes to plagiarism check of scientific papers[J]. Chinese Journal of Scientific and Technical Periodicals, 2021, 32(11): 1355-1361.

https://www.cjstp.cn/CN/Y2021/V32/I11/1355

图/表 8

图1 CrossCheck/iThenticate查重系统的报告显示界面和过滤选项设置
(a)报告显示界面,其中1—整体相似比例,2—单篇相似比例,3—颜色标记重复文字;(b)过滤选项设置

图2 《环境科学与工程前沿》642篇投稿查重结果的分布特征
(a)字数;(b)稿件类型;(c)CrossCheck查重报告中整体相似比例

表1 稿件重复嫌疑的相似比例阈值

判断方法	判断指标	重复嫌疑的判断标准^a
整体相似比例法(TS法和MS法)	r_TS	全文,r_TS≥35%为有重复嫌疑
	r_MS	去除参考文献后,r_MS≥25%为有重复嫌疑
单篇相似比例法(SS法)	r_SS	去除参考文献后,r_SS≥3%为有重复嫌疑

图3 查重报告中相似性比例可信度的研究方法逻辑图

图4 相似比例判定方法的正确率分布
注:判断标准为r_TS≥35%或r_MS≥25%或存在至少一个r_SS≥3%视为重复。.(a)TS法;(b)MS法;(c)SS法

表2 相似比例判定方法的可信度评价指标

判定方法	正确率A /%	召回率R /%	精确率P /%	F₁分数
TS法	62	62	41	0.49
MS法	73	54	55	0.54
SS法	67	85	47	0.61

表3 相似比例对稿件重复与否的错判统计

判定方法	将非重复判定为重复的稿件数量 /篇	将重复判定为非重复的稿件数量 /篇
TS法	174	72
MS法	84	88
SS法	185	27

表4 单篇相似比例错判重复的位置和频次

显示重复位置	错误频次 /次
零散相似的用词或句式结构	128
作者单位和致谢部分	18
试验方法	14
公式及符号释义	11
同类网站的集合	11
图题	4
预印本稿件	4
与学位论文重合	2
未实际去除参考文献部分	2

参考文献 20

[1]	Time for the data to speak[J]. Nature Biotechnology, 2017, 35(8):689. doi: 10.1038/nbt.3938 URL
[2]	唐一尘. 学术不端的罪与罚:国际学术界造假事件梳理[EB/OL]. [2021-05-24]. http://news.sciencenet.cn/htmlnews/2018/9/417134.shtm. URL
[3]	国家新闻出版署. 学术出版规范期刊学术不端行为界定(CY/T 174—2019)[S]. 北京:中国标准出版社, 2019.
[4]	丁奎岭. 以诚信回应公众的科学期待[N]. 中国科学报, 2021-03-16(1).
[5]	刘冰. 科技期刊应重视出版机构与出版相关者的伦理责任[J]. 编辑学报, 2021, 33(1):27-31.
[6]	卢小文. 科技期刊编辑审稿工作的重点难点与对策[J]. 新闻传播, 2021(13):87-88.
[7]	曹启花, 谭辉, 阮剑, 等. 中文科技期刊内容生产能力提升策略[J]. 中国科技期刊研究, 2020, 31(5):570-580.
[8]	张旻浩, 高国龙, 钱俊龙. 国内外学术不端文献检测系统平台的比较研究[J]. 中国科技期刊研究, 2011, 22(4):514-521.
[9]	Zhang Y H, Jia X Y. A survey on the use of CrossCheck for detecting plagiarism in journal articles[J]. Learned Publishing, 2012, 25(4):292-307. doi: 10.1087/20120408 URL
[10]	《中国粮油学报》编辑部. 《中国粮油学报》关于学术不端稿件的认定和处理办法[J]. 中国粮油学报, 2021, 36(7):203.
[11]	《中国塑料》关于论文学术不端的认定及处理办法[J]. 中国塑料, 2021, 35(8):111.
[12]	关于启用“科技期刊学术不端文献检测系统(AMLC)”的公告[J]. 宁夏医科大学学报, 2021, 43(7):681.
[13]	段为杰, 于洋, 吴立航, 等. CrossCheck检测平台及信息核实在学术不端防治中的作用[J]. 编辑学报, 2018, 30(1):64-66.
[14]	Zhang H Y. CrossCheck: An effective tool for detecting plagiarism[J]. Learned Publishing, 2010, 23(1):9-14. doi: 10.1087/leap.2010.23.issue-1 URL
[15]	徐诺, 程利冬, 苗秀芝, 等. 科技期刊使用CrossCheck查重软件对提高稿件质量的作用:以《国际智能和纳米材料》为例[J]. 编辑学报, 2017, 29(S1):170-172.
[16]	黄睿春, 张玉平. 基于CrossCheck论文防剽窃系统的稿件处理策略分析:以《数学物理学报》(英文版)为例[J]. 中国科技期刊研究, 2019, 30(10):1073-1078.
[17]	林汉枫, 贾晓燕, 张月红, 等. 重视学术伦理是期刊编辑义不容辞的责任:《浙江大学学报》(英文版)初探CrossCheck的工作模式和规范标准[J]. 中国科技期刊研究, 2011, 22(3):328-333.
[18]	Butler D. Journals step up plagiarism policing[J]. Nature, 2010, 466(7303):167. doi: 10.1038/466167a URL
[19]	Kleinert S, Lancet J. Checking for plagiarism,duplicate publication,and text recycling[J]. The Lancet, 2011, 377(9762):281-282. doi: 10.1016/S0140-6736(11)60075-5 URL
[20]	Griffin C. The journal of bone & joint Surgery's CrossCheck experience[J]. Learned Publishing, 2010, 23(2):132-135. doi: 10.1087/leap.2010.23.issue-2 URL

选择文件类型/文献管理软件名称

选择包含的内容