从ChatGPT到AI画图技术,⼈⼯智能领域最近的这波突破或许都要感谢⼀下Transformer。今天是著名的Transformer论⽂提交六周年的⽇⼦。
六年前,⼀篇名字有点浮夸的论⽂被上传到了预印版论⽂平台arXiv上,「xx is All You Need」这句话被AI领域的开发者们不断复述,甚⾄已经成了论⽂标题的潮流,⽽Transformer也不再是变形⾦刚的意思,它现在代表着AI领域最先进的技术。六年后,回看当年的这篇论⽂,我们可以发现很多有趣或鲜为⼈知的地⽅,正如英伟达AI科学家Jim Fan所总结的那样。
Transformer模型抛弃了传统的CNN和RNN单元,整个⽹络结构完全是由注意⼒机制(Attention Mechanism)组成。虽然Transformer论⽂的名字是《Attention is All You Need》,我们也因它⽽不断推崇注意⼒机制,但请注意⼀个有趣的事实:并不是Transformer的研究者发明了注意⼒,⽽是他们把这种机制推向了极致。
注意⼒机制是由深度学习先驱Yoshua Bengio带领的团队于2014年提出的:《Neural Machine Translation by Jointly Learning to Align and Translate》,标题⽐较朴实。在这篇ICLR 2015论⽂中,Bengio等⼈提出了⼀种RNN+「上下⽂向量」(即注意⼒)的组合。
虽然它是NLP领域最伟⼤的⾥程碑之⼀,但相⽐Transformer,其知名度要低得多,Bengio团队的论⽂⾄今已被引⽤2.9万次,Transformer有7.7万次。
近年来,注意⼒机制被⼴泛应⽤在深度学习的各个领域,如在计算机视觉⽅向⽤于捕捉图像上的感受野,或者NLP中⽤于定位关键token或者特征。
⼤量实验证明,添加了注意⼒机制的模型在图像分类、分割、追踪、增强以及⾃然语⾔识别、理解、问答、翻译中任务中均取得了明显的性能提升。
引⼊了注意⼒机制的Transformer模型可以看做⼀种通⽤序列计算机(general-purpose sequence computer),注意⼒机制允许模型在处理输⼊序列时根据序列中不同位置的相关性分配不同的注意⼒权重,这使得Transformer能够捕捉到⻓距离的依赖关系和上下⽂信息,从⽽提⾼序列处理的效果。
虽然Transformer这篇论⽂现在影响⼒很⼤,但在当年的全球顶级AI会议NeurIPS 2017上,连个Oral都没拿到,更不⽤说拿到奖项了。
当年⼤会共收到3240篇论⽂投稿,其中678篇被选为⼤会论⽂,Transformer论⽂就是被接收的论⽂之⼀,在这些论⽂中,40篇为Oral论⽂,112篇为Spotlight论⽂,3篇最佳论⽂,⼀篇Test of time award奖项,Transformer⽆缘奖项。虽然⽆缘NeurIPS 2017论⽂奖项,但Transformer的影响⼒⼤家也是有⽬共睹的。
当时这篇论⽂的作者共有8位,他们分别来⾃⾕歌和多伦多⼤学,五年过去了,⼤部分论⽂作者都已离开了原机构。2022年4⽉26⽇,⼀家名为「Adept」的公司官宣成⽴,共同创始⼈有9位,其中就包括Transformer论⽂作者中的两位Ashish Vaswani和Niki Parmar。
在离开之后,两⼈参与创⽴了Adept,并分别担任⾸席科学家(Ashish Vaswani)和⾸席技术官(Niki Parmar)。Adept的愿景是创建⼀个被称为「⼈⼯智能队友」的AI,该AI经过训练,可以使⽤各种不同的软件⼯具和API。2023年3⽉,Adept宣布完成3.5亿美元的B轮融资,公司估值超过10亿美元,晋升独⻆兽。
另⼀位论⽂作者Noam Shazeer是⾕歌最重要的早期员⼯之⼀。
他在2000年底加⼊⾕歌,直到2021年最终离职,之后成为了⼀家初创企业的CEO,名字叫做「Character.AI」。Character.AI创始⼈除了Noam Shazeer,还有⼀位是Daniel De Freitas,他们都来⾃⾕歌的LaMDA团队。
今年三⽉,Character.AI宣布完成1.5亿美元融资,估值达到10亿美元,是为数不多有潜⼒与ChatGPT所属机构OpenAI竞争的初创公司之⼀,也是罕⻅的仅⽤16个⽉时间就成⻓为独⻆兽的公司。
如今,距离《Attention Is All You Need》论⽂发表已经过去6年了,原创作者们有的选择离开,有的选择继续留在⾕歌,不管怎样,Transformer的影响⼒还在继续。