用欺骗性词汇识别学术造假为时尚早

科研造假者是否有独特的用词风格？研究人员在一项新研究中对欺骗性词汇进行分析后表示：他们的确有。但是作者和其他专家警示称，语言分析方法仍然并不能作为可靠的检验科研欺诈的工具。

在这篇发表于《语言和社会心理学期刊》的研究中，美国加利福尼亚州斯坦福大学的David Markowitz和Jeffrey Hancock对1973~2013年间撤销的253篇生物医药研究领域的文章进行了分析——其中涉及到200万个词汇，这些文章中均含有造假数据。

研究人员把这些文章和同时期内发表于同类期刊上的无污点的文章进行了对比，同时也把这些文章和62篇因为欺诈之外的其他原因（如作者之间的分歧）而撤销的文章进行了对比。

利用此前财政金融研究领域对于欺诈性词汇研究的方式，研究人员确定了每篇文章的“混淆指数”。利用词汇分析技术和其他手段，研究人员对一篇文本的抽象性和具体性进行了分析，并计算了某些类型的词汇出现的次数，如因果关系词汇、积极情绪以及技术术语。研究人员发现，这些欺骗性的文章倾向于更加含混、读起来更加晦涩，同时量化词更少。

这些文章还倾向于使用更多术语，研究统计显示，造假文章的专业术语要多出1.5%。Markowits表示，造假文章的另一个趋势是，相关文章往往会采用更多参考文献。他表示，这些特征因此也让造假文章读起来更加“混乱”，并且也经常会耗费读者更多时间。

但是通过语言进行识别目前仍远非揭示科研造假的完美方法，Markowitz说。他强调，尤其是该团队鉴定一篇论文诚信的准确率仅有57.2%。这意味着“约有一半的诚信文章也会被不正确地指为造假论文”，康奈尔大学物理学家Paul Ginsparg说，“这仅比投硬币好一点。”他指出，因此准确率较低的问题就决定了这种方法的“无用性”，出版商很难在真实世界中用其找到造假文章，至少现阶段如此。

Ginsparg还强调，研究人员表示“涉嫌欺骗的作者还会有意使用令人困惑的语言”。另一种可能的解释是，涉嫌欺骗者“不只是糟糕的科学家，还是糟糕的写作者”。“如果想让这种方法成为一种可靠的识别造假的手段，那么就需要更多地提高这种技术。”英国伦敦科研诚信办公室执行主管James Parry说。他表示，尽管“论文发表之后的审查非常重要”，但是从长远来看，科学界首先应该更多地聚焦于阻止科研不端行为发生。