五一节前,收到几封邮件,大致意思都是想要我文章的源代码和数据,进行复现。我对来信的突兀程度感到十分诧异,一问学生,才知道他们也收到大量的来自qq、hotmail、outlook等非单位邮箱的邮件,大多是信口开河,说学生的文章有写作和逻辑问题,但却没有给出任何细节,最终都落到一个要求——“提供代码”。学生告诉我,每年这个时候都会集中收到类似邮件,大概是因为毕业生要准备毕业论文了。
我忙问学生,这种情况持续多久了?他们告诉我有一段时间了,但近年来愈演愈烈,几乎成了套路和风气。比如这几天一些学生还被同一个qq匿名邮件以每天三封的频率持续骚扰。虽然我相信世界上几乎没有人可以保证自己的研究成果是100%正确,但向学生们和合作者强调学术伦理道德和底线,是我一贯的做法。因此,尽管可能会有一些瑕疵,但我相信他们的研究成果是经得起学术推敲的。
为了让学生免于这些无聊干扰、专心致志科研,我立即表示:对于这种匿名骚扰的邮件,拒绝回复并直接拉黑发送方。没想到,稍晚时候,我竟然又收到了匿名者邮件,他带着威胁地声称——文章有着疑点,“非常有礼貌”地询问了我的学生,却被拉黑了。我认真读完这份邮件,并没有找到他们叙述的任何有关我们文章的疑点,但就是要详细的实现。我感觉匿名者似乎缺乏基本的知识和文献背景。
从邮件猜测,匿名发送人大概是大学生或低年级的研究生,邮件中的一些疑惑本应在研究前,由其指导老师所教的基础知识和基本的文献阅读就能解答。当然,最使我吃惊的是,邮件所透露出来的貌似隐约但直截了当的威胁。为此,我向海内外的朋友们了解了一下情况,发现很多人也收到了类似的邮件,甚至有几位朋友说,他们天天都有收到此类邮件,让我不要大惊小怪。
这些来自实名“伸手党”或匿名“威胁党”的邮件,让我十分悲愤——深度学习时代的人工智能研究怎么出了这种乱象?写不如逼,逼不成恐吓。我们知道,深度学习模型的复现和重用需要人力研发与计算设备的投入。我们实验室为了搭建相应的软硬件环境,花费了数以亿计的经费。即便如此,我们自己的复现结果,有时也不尽人意。自己编程写复现代码困难重重,有些人便来找捷径了——直接向作者要源码和具体实现。
实名要的,一般会说看了文章但是复现难度大,所以要代码或者实现细节。可有些人要的方式也似乎太不礼貌、太懒了——甚至于在邮件里连作者的名字和文章题目都写错了,丝毫没有看出对方是看过该文章的。匿名要的,因为担心作者举报,通常不会用实际单位邮箱而用社会上的通用邮箱发送。这些匿名邮件不会表露出要代码或者要实现细节的目的和用途,而是在言辞上拐弯抹角地逼问恐吓,例如指责疑点很多、将举报论文作者等等。
可一旦作者将代码或者实现细节回复匿名者,并询问对方发现的具体疑点后,往往就没有下文了。拿到作者的源码,用于学术研究当属正常,但瞒着作者直接将其商用的,也不在少数。例如,著名目标检测算法YOLO的作者Joseph Redmon宣布,将停止一切计算机研究,原因是自己的开源算法在未经过他同意的情况下,已经被其他人用于引发军事冲突和侵犯隐私的系统里。
更可耻的是,有了作者的源码,却没有运行出作者的结果,那便继续逼问作者。可气的是,有些人根本不花气力去了解论文和具体的实验步骤及其所必须的软硬件实验环境,出现过许多可笑的情况。一位朋友曾告诉我,仅仅因为匿名者自己的软件版本与作者不同而导致程序报错,就去“讨伐”作者;当作者好心相助后,匿名者竟然连程序报错日志是什么都不知道。
还有一位朋友告诉我,在他认真回复之后,匿名者仍然再问稍有基本知识就知道是相同问题的问题,一旦没有及时回复,那就天天、过几小时甚至几分钟后发一封,被迫成为了“义务”指导老师,而且是“保姆型”的。无奈之下,朋友把数据、代码与模型封装成一个Docker作为回复,匿名者竟然回问朋友Docker如何安装和使用?真是当老师不够,“保姆”才行!
更有甚者,匿名者被一个作者拉黑后,就威胁其他合作者或作者单位的其他人。这样不成功,再换个“马甲”甚至几个“马甲”,把这个过程再来一遍。例如,一位朋友告诉我,他的团队收到过来自不同匿名者的邮件,这些邮件除了邮件地址之外,邮件内容竟然一字不差!总之,这些人没有底线、目的只有一个:交出代码!了解了这些情况,让我极度悲哀。面对这种邮件,为何有人没错却把代码给了匿名者?为何匿名者又连错误的代码都要?
与朋友讨论完后,我的认识是这样的:如果文章的算法没有问题,交出代码,一是真心帮助,这本就是学术界的传统;二是息事宁人,由于深度学习文章往往需要多人合作,作者一长串,有些作者深度参加,有些作者较少参与,并不是所有作者对其结果有着同样的信心和定力,这就为匿名者提供了各个击破的机会。如果文章有问题,出乎我意料之外,错误的代码有时也有价值,而且是正确的价值。
比如,可以用它们“交差”,完成KPI甚至是毕业、升职;还可以进一步地分析并修正这些代码,大大缩短开发周期。在与朋友的交谈中,让我感觉这种“写不如逼、逼不成就威吓”的现象在一些高校学生以及企业的实习生中,愈演愈烈、泛滥成灾,开始从“潜规则”向不健康的“亚文化”发展。如此发展下去,不但不能解决深度学习模型的可复现性问题,而且让人担心商用深度学习系统的可用性和可靠性。
特别是,更让人担心对于年轻人在文化和精神层面上的损害。难以复用的深度学习困境。深度学习改变了人工智能的面貌,这是一个巨大的进步。一个新的、规模化的以大数据和算法为核心的行业革命方兴未艾,而其关键就是深度学习模型。学术圈与企业界的研究重点已经转入深度学习模型的设计与应用,其第一步往往就是复现和复用他人的工作。
在传统的机器学习时代,理论算法与实现步骤基本上是等价的,因为其步骤都是确定的,所以大部分算法都是可以被近似或者完美复现。但在深度学习时代,深度网络从本质上就是大规模参数的随机寻优问题,而且包含着很多随机步骤。因此,在作者不开源的情况下,特别是不明确软硬环境的情况下,复现者得不到作者声称结果的现象就会变得正常和普遍。
虽然计算机学科开源的风气越来越好,可重复性问题得到了很大的改善,但是,在为数不少的情况下,即使作者将源代码和数据都发布在论文中,其他机器学习研究人员仍然很难复现其结果。例如,去年4月3日,图灵奖得主杨立昆(Yann LeCun)在其推特上公开质疑谷歌大脑的论文无法复现,而且表示即使是NLP的一些顶级研究人员也无法复现谷歌大脑的语言模型Transformer-XL所得到的结果。
其实,同一问题在不同的软硬实验条件下,两个或三个研究小组得到相同研究结论,但与原作者差距较大的是常见的。另外,可能由于软硬环境的升级,即使是同一作者不同时期实现的同一算法,算法的效果也会差别巨大,这是我在文献检索时亲自经历的一件事。
个人认为,一般来说,造成深度学习难以复现的原因主要由算法水平和硬件水平两方面导致:从算法水平上讲,比如论文作者可能会从多组不同的实验环境中挑选出最好的结果,以达到最好的水平;或者使用一些技巧,例如,数据集的划分、针对数据集来调整机器学习模型的参数、在一个较大的私有数据集进行预训练等等,以提升实验结果。
从硬件水平上讲,由于不同的CPU和不同的GPU计算能力的差异,在不同的硬件平台上训练不同类型的深度网络时,不同的深度学习模型会有不同的特性和运行性能。一些研究人员与普通研究者相比,有着难以匹敌的超级算力(超级计算、超大规模云计算等等)。此外,由于金融、医学、能源等领域有着技术和数据隐私的特殊性,这些领域的深度学习算法的数据、代码和模型大多是不能公开的,是极度保密的。
和有些公司合作的论文,有时公司要求技术的保密,不能公开数据、代码和模型。综上,目前的算法训练技巧、软硬件实验环境和软硬件实验条件成为了深度学习模型的关键技术的一部分。由于知识产权和其他不得已的保密因素的影响,作者不愿分享和不能分享的现象也变得日益普遍,这就造成了一个难以复现、难以复用的深度学习困境。最后,深度学习的不可解释性也是造成目前困境的原因之一。
从理论上,我们无法要求一个不可解释性的模型总是给出一个可以解释的结果。客观上,投机分子抓住了深度学习的这一特点,一批人造假欺骗换取名利、一批人威逼恫吓掠取成果,从正反两个方面,殃及广大无辜的科研工作者。破局的可能之路——联邦智能与联邦生态。
由于各方面原因造成的数据、代码与模型的孤岛问题限制了深度学习模型的复现与应用;与此同时,社会对于数据隐私保护与知识产权保护的愈加重视,相关监管措施逐步出台,导致数据的收集与技术的分享变得更加困难。面对当前深度学习的困境,一味地让作者开源并不能彻底地解决问题。而且,数据的价值源于其孤岛性,知识产权的价值在于其可保护性,那么有没有更好的解决设想或者解决方案?
一方面,我们要大力发展开源平台和托管中心等现有手段,但是要改变这些组织间相互独立、各自为营的现状。运用以以太坊DAO等为代表的加密管理技术,将各个开源与托管组织间的深度学习的数据、代码与模型进行协同管理,以协同发挥“组织智能”的优势,突破DNN、GNN等算法中心论思维。
最终,上“真道”,真就是可信,可靠、可用、良效(Effective and Efficient);道就是分布自主有序组织化,形成人类智能(Human Intelligence)、人工智能(Artificial Intelligence)、组织智能(Organizational Intelligence)相互协作的好(HAO)智能,以解决深度学习的困境。
另一方面,许多朋友都知道,我的希望是构建联邦生态来解决这一问题(详见《联邦生态:从联邦数据到联邦智能》,智能科学与技术学报, 2020, vol.2,no.4, pp.305-313)。我们设想的联邦生态指在分布式的联邦节点间,以基于区块链的联邦安全、联邦共识、联邦激励、联邦合约为支撑技术,以联邦数据、联邦控制、联邦服务、联邦管理为核心内容的面向隐私保护和数据安全、技术和资源协同管理的统一整体。
联邦生态以数据和算子交换时的隐私可控为前提,通过联邦控制实现数据联邦化,通过联邦管理实现服务联邦化,借助人工智能和大数据技术实现联邦智能,驱动整个产业和服务生态的创新和进步。在一定程度上,联邦学习为我们提供了一个初步的案例。我希望联邦智能与联邦生态以及其他智能手段是破除深度学习困局的可能之道,推动智能系统研发的更加深入与普及,使其早日具有广泛造福于人类社会的可靠性与合法性。应对有理有节,绝不屈从。
话说回来,在我们学术生活中,学术交流扮演着极其重要的角色,我们必须捍卫其纯正性。这种匿名逼问、骚扰威胁的行为不但损害了学术交流,而且实际上是保护了真正的学术作弊行为。若是大行其道,那就没有了正常的学术生活。为此,我们必须有礼有节、绝不屈从于这种行为!
面对这种匿名、污蔑、骚扰、威胁行为,我特地为实验室暂时制定下了如下规则——无理由要源代码和数据集的一律不回,多次发送并骚扰的,请直接拉黑发送方;邮件应该由通讯作者统一回复;其他作者收到关于自己文章的问题的邮件告知对方,问题应由通讯作者回答;通讯作者应该核对邮件发送方,确认是否匿名、是否是骚扰,是否是单位邮箱发送,若是学生,是否抄送其导师的单位邮箱,是否有胁迫威胁言论?
通讯作者应根据上述情况进行相应处理,并将结果上报实验室。希望这“约法三章”可以帮助我们的学生远离匿名逼问、骚扰威胁,回归到正常的学术生活。