“透明计算”的病根之一不在“他引数”而在“引他数”,其“国际率先”以及“对冯诺伊曼结构的扩展”之说皆隐含逻辑错误,而且他人工作在前,相关技术被广泛应用。其获得国家自然科学奖一等奖值得商榷,盘根错节的人情世故和利益纠缠下,科技奖励的评审机制比外界想象得更加敏感而复杂。在当下中国的科研环境中,彻底排除病态、不健康的部分不但需要耐心,也需要参与。
“透明计算”的愿景是什么?想象一下你的工作和生活只在一个房间里完成,这个房间可以同时无穷大也无穷小;你想要什么,眨眼间就有“光速快递”搬到你面前;不要什么,一挥手就消失了。更好的是,发货地是一个无穷大的保洁仓库,所以你拿到的永远干净。“透明计算”给你的,就是这样一个有着无穷弹性的房间——你的电脑。
如此美好的技术,为什么会引发那么大的舆论争议?技术原创性值得商榷。我个人的看法是,“透明计算”最大的隐患在于安全和鲁棒性。没有一个安全专家能担保“保洁仓库”不受攻击,即使放在云里;也没有一个网络专家能保证网络不掉包。第一个问题会使得你的“房间”向黑客透明,第二个问题让你有房进不了。这是包括“透明计算”在内的类似技术想要离开实验室、校园或公司等封闭环境向社会推广的软肋。
奖项异议者的一个核心依据,是其团队的核心技术论文“他引数”实在太少,所以影响力不够。影响力不够,创新就可疑。这个判据本身是有问题的,在科学史上,有影响力的工作在当时当下并不见得就能被接受。事实上,越具创新力的工作或许被排斥的可能性越大。拿我自己的经历举例,我觉得做得最好的几样工作并不是被引用最多的。
就事论事,关于“透明计算”的几篇文章,我倒觉得病根不在“他引数”,而在“引他数”。
换句话说,就是其论文参考了多少同时期国际同行相关的工作。从愿景和技术路线上考量,与“透明计算”最相近的是EPFL(瑞士联邦洛桑理工学院)教授Willy Zwaenepoel和斯坦福大学教授David Cheriton在上世纪80年代初所做的分布式V操作系统内核,支持挂在局域网上的不带硬盘的工作站(diskless workstation):从网络存储上下载操作系统、应用程序和数据。
该系统在校园内部署,研究论文1983年在系统研究界顶级会议SOSP(两年召开一次)上发表,他引数428次。
另一个和“透明计算”紧密相关,并且已经在业界被普遍使用的,是虚拟化技术。其最重要的目标是把软硬件在最大程度上剥离干净,从而实现“腾挪大法”。电脑被软件虚拟化之后,被打包另存的旧版操作系统和软件可以在新硬件上跑起来;正在运行的“电脑”能从一个机器扔到另一台,边扔边跑还不能出错。
这后一个场景,叫“虚拟机动态迁移”。相信大家可以看到动态迁移和“透明计算”之间的相似之处,事实上,“透明计算”的愿景是动态迁移的一个子问题,后者还要稍微难一些,增加(或者减少)一些细节,动态迁移就实现了“透明计算”。
对于虚拟机的讨论起码从上世纪70年代就开始了,直到今天仍是一个活跃的研究领域。以“虚拟机”为关键词在谷歌学术中搜索,有近5.4万篇相关文献。近代比较有名的一篇文章,2001年发表在两年召开一次的操作系统顶级研讨会HotOS上,至今为止他引数达到446,其中就谈到了迁移。上世纪90年代末,斯坦福的计算机系一位教授以此创业,就是现在业界知名的IT公司VMware。
“虚拟机动态迁移”的相关文章有近9800篇,最高他引数为2079,位居第二的论文他引数达到504,由VMware的研究团队发布在操作系统领域的亚顶级会议USENIX ATC 2005年年会上。这篇文章描述了其在2003年就发布的虚拟机动态迁移的产品。
“透明计算”团队提交的第一篇文章是在2004年,共引用了6篇文章(顶级国际会议的文章引用20多篇是很常见的),其中只有2篇来自于国际同行,而且还不属于操作系统领域(属于一个旁支,即普适计算领域),且均和虚拟机无关,也没有提到分布式V内核的工作。换句话说,被国际同行普遍认可的几个相关性很高的文章,当时并没有在“透明计算”论文的索引中出现。
我觉得这可以原谅。计算机科学发展到现在,子领域庞杂而盘根错节,互相之间的壁垒也较深。如果从相邻的领域进入(比如网络),熟悉的语言也不搭(比如非英语),在这样一个相对受限的环境之中,“原创性”是可能的。整个科学史充斥了这样的案例,牛顿和莱布尼茨关于微积分的所属权之争应该是最有名的一例;机器学习中风头最劲的深度学习网络,其核心的反向传递算法,起码被独立发明了4次。
“扩展冯诺伊曼结构”隐含逻辑错误。“无知无畏”的“潜行”并不见得总是个问题。以我自己的经历看,跨界之初的“无知无觉”甚至是常态:自信满满,想法也一堆,随着学习和研究的深入,经常会发觉,不是别人已经试过甚至方法更好,就是我所针对的其实是个伪问题。只有通过时间和经验的积累,研究者才能产生真正鲜活的想法。
从“透明计算”的最初研究到现在已经过去了10年。如果项目初期的“闭门造车”还可以原谅,那么10年之后就应该有所改变。事实上,在“透明计算”团队后期的文章中,分布式V内核和VMWare都在“相关工作”的章节中出现,这是一个进步。问题在于,既然如此,“国际率先”一词就不合适再用。
更让人费解的是奖项申报中提出的“对冯诺伊曼结构的扩展”。
冯诺伊曼是和图灵比肩的计算机学科的开山鼻祖,以他命名的硬件体系结构,也就是从内存经总线到CPU的设计,是今天市场上所有机型的基石。“透明计算”也好,“虚拟机迁移”也罢,都是把程序从网络下载到本地,而程序的执行是从内存流到CPU。除非把(机器间的)网线和(机器内部的)总线混为一谈,是不会出现这样概念性的错误的。
无论是分布式V内核或是虚拟机迁移(或者更广义一点的分布式计算)的相关文章,都没有把工作的意义“创造性地”上升到“扩展冯诺伊曼结构”的高度。鉴别其中的错误,只需要计算机体系结构、计算机网络和操作系统这三门本科生阶段的基础课知识。
我的看法是,“‘透明计算’对冯诺伊曼结构的扩展”一说,其中隐含的逻辑错误,就好比说叫外卖相对于自己埋锅做饭,是扩展了人的消化系统一样。技术路线上有他人工作在先,实际推广上有虚拟机和轻量级远程桌面等早已被广泛使用的压力——从这两个角度考虑,“透明计算”是否担得起国家自然科学奖一等奖值得商榷。
考虑到中国的国情和历史,这两个批评点并不绝对。比如说分布式V内核的研究工作发表的时候,中国连互联网都没有,对国际同行的工作所知甚少。考量“透明计算”团队对同行论文的引用随时间的变化,一个合理的推测就是:“透明计算”在起步阶段实际滞后、相对“原创”,而后期又超标拔高。需要讨论的是,在这样的大背景下我们的标杆应不应该放低?
围绕评审制度的反思。对“透明计算”原创性的质疑,必然牵扯到更敏感的评审机制。我对国内的体制并不熟悉,在咨询了一些朋友之后,发觉其复杂性远比外界想象得要多。有朋友很尖锐地指出,在个人学术操守有可能无限度地突破底线的情况下,政府的干预(或者参与)是必要的,能在一定程度上保证操作程序不受污染。这和中国计算机学会呼吁政府退出评审机制,曾经在网上广为流传但最后撤下的公告大相径庭,虽然出发点可能非常不同。
另外一个很好的例子,是公示期间的异议是否可以匿名。有朋友告诉我,评奖或考核期间匿名信在校园内漫天飞的情况非常让人寒心,有不少和学术毫无关系,根源是各种非学术的不爽。而如果不匿名,那么异议者所承担的风险之大足以让人思量再三而止步不前。专家对于“是否参加评审”的考量存在着同样的问题,盘根错节的人情世故和利益纠缠可以总结成这样一个两难困境:你是懂技术懂科学,还是懂事懂做人?
即便存在各种不确定因素,现存的评审体制并不是不能改进。比如说,在前期的函评和盲审阶段尽量做到匿名规避,切除“走小道、打招呼”的可能。再比如,最后的终审专家名单应该公开透明,把学术生涯的荣誉和公正直接挂钩等等。
向后看是为了要向前看。“透明计算”的争议应该放在更大的时间尺度上来观照。
我清楚地记得我第一次接触到计算机编程是高三期间在校外的市少年宫,基本上是纸上谈兵,而且这还是在当年全国科普条件最好的上海。在上大三的时候,500多人的电子工程系,只有两台PC机,那已经是上世纪80年代末了。现在的年轻学者不见得了解,在短短的30年间,我们的学习条件和学术环境是如何从基本封闭走向与世界的透明对接。而所谓“原创性”在这样的国情之下,是可以存在一种既自洽又畸形的定义和发展轨迹的。
明白这些,也就明了要把其中病态、不健康的部分彻底排除掉,不但需要耐心,也需要参与。
历数世界十大互联网公司,中国已经占了四席。相比之下,中国学术界的进步,至少在计算机界,真正原创的工作还较少,甚至鼓励原创的条件还在艰难摸索中。像华裔数学家张益唐那样无欲则刚、十年磨一剑的例子,在中国当下很难出现,但并不等于说将来不会出现。我们需要关注的不只是2014年的国家自然科学奖一等奖,更是随着改革的推进,5年后、10年后的自然科学奖一等奖可能是什么。路漫漫其修远矣,大家努力!