三个学生开发的学术钓鱼软件，成功忽悠了整个学术圈

三个学生开发的学术钓鱼软件，成功忽悠了整个学术圈。只需输入作者名，电脑就能帮你生成一篇“SCI级别”的计算机论文。摘要、背景介绍、实验结果、图表、讨论以及结论等都一应俱全。世上就是有这等美事。只要你想，一口气就能搞个几百篇计算机论文。尽管SCIgen只是一个网页程序，但它产出的论文格式可能比一些本科论文还要规范。不过也别高兴得太早，到目前为止AI还无法取代人类完成科研任务。

别看这些生成的论文有模有样，但根本没有地球人能看得懂。不是因为太高深，内容纯属是“一本正经地胡说八道”。但这并不要紧，因为在学术界总是会有人上当。将这些计算机论文，投稿到一些国际学术期刊还会被录用，极具讽刺意味。

学术出版界也是个江湖，同样鱼龙混杂。并不是所有人，都奔着证明自己或是发现真正有价值的东西而来。而SCIgen这个程序的诞生，就是为了戏耍学术界的那些“野鸡期刊”。

这些只以盈利为目的的野鸡期刊也叫掠夺性期刊（Predatory journals），学术质量与信誉都很低。他们的日常就是疯狂地给科研人员发送垃圾邮件，以“征集论文”之名吸引那些没有发表经验的学者上当。一般来说在论文发表前，学术刊物主编会邀请专业领域内有一定造诣的同行学者，评议论文的质量。这也叫同行评议，刊物会按评议结果决定是否发表。但掠夺性期刊，只要钱到位他们都能安排论文的发表，连审都不用审。

因为日常不堪骚扰，麻省理工学院（MIT）计算机科学与人工智能实验的几个学生就看不过去了。2005年，Dan Aguayo、Max Krohn和Jeremy Stribling三人，决定向这种”水”得不行的期刊和会议宣战。

SCIgen的原理很简单，有些类似于填词游戏。学术论文的格式是非常相似的，它本身就充满了专业词汇和固定的句式。

而SCIgen则能够从固定的词库中，随机抽取出这类计算机领域内的专业术语，以符合语法的方式生成文本。再加上一些漂亮的图表和详细的参考文献等，就能骗过不少外行。但这个软件真没多厉害，内行人一看就知道全文是在“胡说八道”。要怪，就怪一些期刊和会议灌水得太过分了。

不出所料，他们第一篇自动生成的论文就攻破了WMSCI（World Multiconference on Systemics, Cybernetics and Informatics）会议的防线。这篇论文名为《Rooter：处理接入点与冗余的典型合一方法》，看似高大上其实内容根本不知所云。而WMSCI会议，不但接受了这篇假论文，还邀请作者出席会议作报告。

影响持续但这场闹剧，并没有随着这场假学术会议的结束而收场。刚开始，只是IEEE撤销了对WMSCI会议的资助。到后来，越来越多人开始使用SCIgen产出的“钓鱼文”在其他学术期刊“试水”。现阶段，这三位SCIgen元老已步入职场，深藏功与名。而他们留下的这款软件，则将学术界搅得天翻地覆。例如，德国的学生利用这款神器，就攻下了2008年和2009年在中国武汉举办的两个IEEE国际会议。

当时，Schlangemann教授就被当成知名学者，还被邀请作为会议的主持人出席。但Schlangemann教授并非真有其人，他只是一个由这位学生创造的虚拟角色。而这个名字，则源于一部名为Der Schlangemann的德国电影。Schlangemann教授还有虚拟的个人网站。

现在SCIgen的访问量依然惊人。每年的浏览量仍超过60万次，无数钓鱼文在源源不断地产出。

这导致了这个页面，隔几个月就要崩溃一回。2013年，法国格勒诺布尔大学的研究员Cyril Labbé就透露了一个令人不安的事实。他在IEEE和Springer出版公司旗下的期刊中，就发现了超过120篇SCIgen生成的诈文。对于自己是否已彻底排查出所有乱入的伪论文，Labbé自己心里也没底。因为他本人也无法从有限的订阅源内下载所有的论文。这也是学术出版商常常遭到诟病的一点。

想在期刊上发论文需要收取高昂的版面费，但想在上面下载论文则又要付另外一笔费用。就算是作者本人在学术期刊上发表的论文，想要下载都不能例外，一律收费。

而除了期刊的审核不严格，Labbé还揭示了另一个漏洞。那就是，利用SCIgen这类垃圾论文软件，竟可以给自己狂刷h指数（H index)。一名科研人员的h指数，是指他至少有h篇论文被引用了至少h次。这是评价个人学术成就的一个新方法。

例如，某人的h指数是20，这表示他已发表的论文中，每篇被引用了至少20次的论文总共有20篇。但所谓的H指数，在SCIgen的捣乱下就无法起效了。当时，Labbé就以“IKE ANTKARE”作为作者名（注意，IKE ANTKARE这人并不存在），用SCIgen生成了102篇垃圾论文。这让IKE ANTKARE在谷歌学术中的h指数，一下子飙升到了94。

他还一度挤进了计算机科学领域科学家中h指数排名的前六。当然，为了让h指数变高，他也用了一点小技巧。这100篇假论文中，每篇都会对所有作者名为IKE ANTKARE的假论文进行引用。而为了让谷歌学术能够对这100篇论文进行索引，Labbé还在参考文献中加入了唯一一篇真实的，已被谷歌学术索引的论文。“我自己引用自己”，就这样IKE ANTKARE凭一己之力就成了学术界冉冉升起的新星。

当然，IKE ANTKARE这颗学术新星陨落得也很快。因为Labbé已经将自己的一系列骚操作写成论文，对世人公开了IKE ANTKARE的虚拟身份。随后谷歌学术，就对IKE ANTKARE进行了封杀并删除了他的论文。

因为一些知名学术期刊，会对这些计算机生成的诈文照单全收。那么，我们就有理由相信一些作者会把SCIgen当作赚钱的工具。

于是，为了揪出这些混入科学期刊的诈文，Labbé就与Springer合作特意开发了一款针对SCIgen的软件——SciDetect。这款开源软件，能够自动检测出哪些是由SCIgen生成的假论文。但在这之后，SCIgen的创始人之一Stribling是这样评价此事的：“他们开发了一个新程序，而不是制定更好的政策让所有被接受的论文有更好的评审过程，这事本身就挺搞笑的。

”事实上，SciDetect的作用并不大，想要绕开这个程序的检测并不难。Stribling表示，如果这是一场军备竞赛，他敢打赌再次骗过SciDetect只是时间的问题。事实上，学术钓鱼从上个世纪就已经存在了。早在1996年，量子物理学家艾伦·索卡尔(Alan Sokal)撰写的一篇科学诈文，就引起了一场“科学大战”。他将一篇充满了常识性错误的论文，投稿至著名的文化研究杂志《社会文本》。

标题为《超越界限：走向量子引力的超形式的解释学》。结果《社会文本》的五位主编，都没有发现这是一篇诈文，还一致通过将文章发表。东窗事发，这立即触发了一场席卷全球的科学大论战，世界众多著名的媒体都参与其中。

相比SCIgen，艾伦·索卡尔还是比较有诚意的。尽管内容还是一本正经地胡说八道，但论文毕竟还是他自己亲手炮制的。他将量子物理学中的术语、后现代主义领军人物的术语，还有他自己捏造词句糅合在了一起。于是便得到了一篇毫无学术内涵，但又充满“后现代”风格的诈文。而作为学术钓鱼的鼻祖，之后的学术钓鱼事件都被称为“索卡尔的平方”。那么学术钓鱼，何时能消失？很简单，只有鱼儿不上钩，钓鱼就会自动失去意义。