论文查重，可能比你想的更靠不住

Debora Weber-Wulff表示，学者和编辑不要再假定软件总能发现 “剽窃”文本，而应更加仔细地阅读论文。在谈及抄袭时，许多学者似乎都对所谓的“魔力数字”深信不疑。上个月，一家提供剽窃检测软件的公司宣布，公司将于今年晚些时候被收购，作价17亿美元。这家公司提供基于“黑匣子”算法的软件系统，这种系统会生成一个分数，据称可以显示被检测文本与其他文本的相似程度。

因为这些系统的确发现了一些剽窃案例，所以人们误以为它们能够将所有剽窃情况一网打尽。这用我祖母的话说，简直是“痴人说梦”。在过去的15年里，我一直在测试剽窃检测软件。检测结果经常令人费解，有时干脆就是错的。许多系统会误报常见短语，机构的长名称，甚至参考文献的信息。软件同时也会漏报。如果被剽窃文本的来源未被数字化，有拼写错误，或因其他原因无法被软件系统所用，则系统可能无法检测到剽窃痕迹。

许多剽窃案例都由于材料是翻译自外文或获取自多个来源，而未被发现。系统的评估同时基于使用的算法和可供对照的文本语料库。对于检测随机样本的系统而言，相隔仅仅几分钟再重复检测同个文档也可能得出不同的结果。我还曾见过不同的系统将同一个文本评估为全文抄袭、部分抄袭或没有抄袭。

然而这些系统生成的数字——常被冠以不同的名称，如“原创性得分”、“非唯一内容”或“剽窃等级”（PlagLevel）——通常会被人不假思索地接受。尽管可用的系统有很多，但极少有人会费劲去做二次检验。事实上，仔细阅读软件生成的报告能够发现，有些正确引用的材料，如已经恰当标明出处的“方法”部分，被标记为剽窃。编辑、教授和管理人员往往因为时间紧迫，而只依据一个简单的数字便做出对学者和学术至关重要的决策。

如果软件报告的数字较小，评估论文的人可能会忽略明显能看出是抄袭的痕迹，如文风变化、拼写错误、字体更改或带下划线的字词——下划线往往意味着文本复制粘贴自维基百科。没错，我在数十篇博士论文和科学出版物中看到了这些。如果软件报告的数字较大，编辑或教授可能会偏颇地认为提交的文章是赤裸裸的剽窃。高校针对不同学位等级正式定义了“可接受的”由软件评估的剽窃水平。

教师希望软件可以标记出“烂”论文，省得他们再去费时间看。但害怕不慎被算作剽窃的学生会使用同一个系统来改写论文，用同义词替换并重新排列句子，直到检测数字看起来很好，这种行为大大损害了论文的可读性。期刊编辑将这些数字当作“拐杖”，用以帮助他们快速过滤出那些能够直接拒绝，或在评审表示赞成之后能够毫无顾虑地发表的论文。一些期刊和会议甚至直接在网上公布他们的检测阈值。

重复和剽窃的文本会造成有害影响：它们会扭曲学者的真实学术成果，使文献更加难以理解。这一点不能容忍，而那些不可靠的数字并非解决之道。我多年来一直就有问题的出版物与期刊编辑保持通信。重复出版物是那些文本（甚至数据）基本相同，并至少有一名相同作者的。在某些案例中，这些论文的标题和摘要不一样，并且添加、删除或重新排列了作者。剽窃的论文没有相同的作者。我联系的一些编辑对此深表惊讶。

他们使用剽窃检测软件，证明他们希望能看得更清楚。但由于种种原因，重复论文能够逃开检测。重复文本的潜在来源，如博士论文，可能存储在某知识库中或只有付费才能查看，从而无法进行对比。巧妙改写的文本也会低于检测阈值。今年提交给世界研究诚信会议（World Conference on Research Integrity）的摘要都经过了软件分析，文本重叠阈值设定为30％。

事实上，在提交的449篇摘要中，38篇超过了这个阈值。经调查，15篇被认定为剽窃，23篇包含了作者之前已发表的研究中的文本。绝大多数摘要都被拒绝了；对于某些作者重复利用自己文本的情况，其摘要被降级为海报。剽窃和重复达到这种程度，真是令人震惊，特别是在一场关于学术诚信的会议上；这种情况还有可能被低估了。软件无法判定剽窃；它只能发现一些文本相似的情况。这些系统可用于标记问题，但无法用于区分原创和剽窃。

这种决定必须由人做出。定位剽窃最重要的方法是阅读文本，研究参考文献，从中寻找不一致之处。用一段话中的三五个词，或一个特别漂亮的措辞转变，通过互联网搜索引擎进行抽查，便能够揪出抄袭者。搜索一条看起来奇怪的参考文献可能会返回一篇以相同方式弄错了的源文献。只有当文本不在线，在线搜索毫无帮助时，才应求助于软件系统。在这些情况下，最好使用两到三个系统，并阅读检测报告，而不要不加辨别地采纳其生成的数字。

学术诚信是一个社会问题；尽职调查不能完全依赖于未知的算法。维持科研诚信取决于那些愿意努力保护文献的科学家们。