2022年最值得关注的十篇AI论文,你都看了吗?
2023-01-11 14:46:17
转载自机器之心(ID:almosthuman2014)
近日,威斯康星大学助理教授Sebastian Raschka盘点了2022年他最看好的十大AI论文。
2022年1月,扩散模型第一次吸引了我的眼球。当时我判断到将会有某些大事发生,然而却未曾预料到几个月后会出现什么:DALLE-2、Imagen、Stable Diffusion以及其它许多模型。
对于大型语言模型来说,2022也是非常重要的一年,最近面世的ChatGPT更是锦上添花,抢尽了风头。
在回顾2022年发表的十篇值得关注的论文前,我们可以先看看2022年12月的AI要闻以及麦肯锡的一份人工智能全景报告和行业调查综述。
简单来说,有两篇论文引起了我的注意。
第一篇:视觉Transformer(ViT)学习什么?
论文链接:https://arxiv.org/pdf/2212.06727.pdf
关于视觉的探索显示,ViT学习的归纳偏置或特征与卷积神经网络(CNN)学习的那些相似。例如,ViT的early layers捕捉边缘和纹理,而later layers学习更复杂的表征以捕捉更广泛的概念。
视觉Transformer从early layers(左)到deeper layers(右)的可视化特征过程。
关于生成建模,ViT倾向于生成比CNN更高质量的背景,这就提出了ViT如何处理预测任务中的背景和前景的这一问题。当背景被消除时,ViT似乎比CNN更善于预测目标类别,并且在前景被消除时它们也依然表现得更好。这表明,ViT在依赖基于其存在的某些特征时可能更具选择性,或者说,总体更为鲁棒。
第二篇:一种生成蛋白质的扩散模型
论文链接:https://www.biorxiv.org/content/10.1101/2022.12.09.519842v1
在图像生成领域,扩散模型已经带来了突破性的性能,那么生成蛋白质结构呢?研究人员开发了一种新的蛋白质合成扩散模型,称为RoseTTAFold Diffusion(RFDiffusion),这种蛋白质是从零开始创造的,而非来自于自然界中早已存在的蛋白质。
区分de novo蛋白质(在实验室中使用没有进化历史的氨基酸序列合成)与诸如AlphaFold、AlphaFold2等系统(使用现有氨基酸序列数据预测蛋白质3D结构)十分重要。但值得注意的是,AlphaFold2曾被用于验证RDiffusion研究的结果。
然后再谈谈最近的行业趋势。今天,在产业中实际使用的技术是什么?根据麦肯锡最近的AI全景报告——并不是大型语言模型(Transformer)。特别说明,由于样本规模和代表性的限制,该报告中的调查结果可能无法准确反映所有公司的经验。
自然语言处理在行业内一直受到追捧,但其受欢迎程度经常被计算机视觉应用超越。但现在,我们第一次看到计算机视觉和自然语言处理几乎总是紧密联系在一起。
与此同时,自然语言文本理解的受欢迎程度几乎是自然语言「生成」的两倍。请注意,自然语言生成的新闻通常会占据热点首页:如GPT-3、Galactica、ChatGPT等。(文本理解可能包括摘要,摘要也是「生成」的,所以我假设它在这里主要指的是类似分类的任务。那么反过来说,类别(categories)也是可以重叠的。)
值得注意的是,Transformer的排名垫底。
似乎许多公司尚未采用类似BERT的语言模型编码器来进行文本理解和分类。相反,他们可能仍在使用基于词袋模型(bag-of-word-based)的分类器或递归神经网络。同样,类似GPT的模型解码器似乎还没有广泛应用于语言生成,因而文本生成可能仍严重依赖循环神经网络和其他传统方法。
基于下图,我发现了一些有趣的其他见解:
图源:2022年麦肯锡AI全景报告。
能够利用「小数据」非常重要。当数据不可用时,生成合成数据的能力非常有用。
尽快将数据集成到AI模型中的能力是在竞争中脱颖而出的关键。那么,良好的软件框架和基础设备设置可能起到举足轻重的作用。
不幸的是,大多数高绩效公司迄今仍不关心模型的可解释性。
十大年度论文
以下将介绍我在2022年阅读到的排名前三的论文。当然,2022年发表的论文中还有很多其他主题是更令人兴奋、永恒且具有影响力的。
2022年,保持前三名的成绩显然具有挑战性,因而下面还附了一个扩展列表,列出了我排名前十榜单中的其余七篇论文。
一、ConvNeXt
论文链接:https://arxiv.org/pdf/2201.03545.pdf
《A ConvNet for the 2020s》
这篇论文我愿称之为全年最佳,因为作者们能够设计出一种纯卷积架构,其性能优于诸如Swin Transformer等流行的视觉Transformer(当然,也优于在它之前出现的所有卷积神经网络)。
当卷积神经网络不仅应用于分类,还用于目标检测和实例分割时,这种所提到的ConvNeXt架构很可能成为新的默认架构——例如,它可以用于Mask R-CNN的骨干网络(backbone)。
正如作者们在论文中所述,他们受到了当前视觉Transformer训练机制以及Swin Transformer混合架构表明卷积层仍然相关的事实启发。这都是因为纯视觉Transformer架构缺乏有用的归纳偏置,例如平移同变性和参数共享(即卷积中的「滑动窗口」)。
为了开发ConvNeXt,作者们从ResNet-50基础架构出发,并采用了从现代ViT训练机制中运用的架构修改和训练机制。即使是赋予在卷积神经网络的背景,这些本来也没什么新奇。然而,新颖之处却在于作者们有效地使用、分析和组合了这些技术。
他们采用了哪些技术?这可以列一个很长的清单,包括深度卷积、反向瓶颈层设计、AdamW、LayerNorm技术等等,具体的汇总你可以在下图中找到。此外,作者还使用了数据增强技术,如Mixup、Cutmix等。
二、MaxViT
尽管随着上述的ConvNext出世,卷积神经网络再度受到欢迎,但目前来说ViT仍然抢尽风头(并非刻意双关)。
MaxViT:多轴视觉Transformer
突出显示了近年来视觉Transformer的发展。虽然早期的视觉Transformer具有二次复杂度,但已经可以通过许多手段来将视觉Transformer应用于具有线性缩放复杂度的更大图像中。
2022年9月发布的MaxViT,目前是ImageNet基准测试中的SOTA模型。
在MaxViT中,这是通过将注意力块(attention block)分解为具有局部-全局交互的两个部分来实现的:
局部注意力(「块注意力」);
全局注意力(「网格注意力」)。
值得一提的是,MaxViT是一种也具备卷积层特征的卷积Transformer混合模型。它可以用于预测建模(包括分类、目标检测和实例分割)以及生成建模。
顺便提一句,在谷歌学术上搜索「视觉Transformer」,仅2022年就产出了5000多个结果。这个结果虽然可能包括误报,但仍可表明人们对视觉Transformer的广泛欢迎程度和感兴趣程度。
不过不用担心,视觉Transformer不会完全取代我们喜爱的卷积神经网络。相反,正如MaxViT所强调的,当前的趋势是将视觉Transformer和卷积网络一起整合到混合架构中。
三、Stable Diffusion
在ChatGPT成为最先进的模型之前,Stable Diffusion早已在互联网和社交媒体上普及。这个概念其实最早来源于2021年12月上传的论文《High-Resolution Image Synthesis with Latent Diffusion Models》。
由于这篇论文在2022年CVPR会议上发表,并在2022年8月凭借Stable Diffusion受到高度关注,我认为将其列入2022年的TOP3论文名单是公平合理的。
扩散模型是一种概率模型,被设计用于通过逐渐对正态分布变量进行去噪来学习数据集分布。这个过程对应于学习长度为T的固定的马尔可夫链(Markov Chain)的逆过程。
扩散模型的图示。
与使用生成器(Generator)和鉴别器(Discriminator)之间的极大极小博弈(minimax game)训练的GAN不同,扩散模型是使用最大似然估计(MLE)训练的基于似然的模型。这有助于避免模式坍塌和其他训练不稳定性。
扩散模型已经存在了一段时间,但众所周知,在训练和推理过程中,从中取样仍非常昂贵。上述2022年论文的作者提到过,5天的运行时间仅能采样50k张图像。
《High-Resolution Image Synthesis with Latent Diffusion Models》一文的新颖之处在于人们可以使用预训练的自编码器在潜在空间中应用扩散,而非直接使用原始图像的全分辨率原始像素输入空间。
上文提到的训练过程可以分为两个阶段:首先,对自编码器进行预处理,将输入图像编码到较低维度的潜在空间中,以降低复杂性。第二,在预训练的自动编码器隐层表征上训练扩散模型。
在潜在空间中进行运算,降低了用于训练和推理的扩散模型的计算成本和复杂性,并可以生成高质量的结果。
本文的另一个贡献是一般条件下的交叉注意力机制(cross-attention mechanism)。因此,除了无条件图像生成之外,所提出的潜在扩散模型还能够进行图像修复、类条件图像合成、超分辨率图像重建以及文本到图像合成——后者正是DALLE-2和Stable Diffusion闻名的原因。
接下来介绍我的排名榜前十论文中后七篇论文的概述:
四、《「通才」智能体》(A Generalist Agent)。在本文中,研究人员介绍了Gato,它能够执行从玩游戏到控制机器人等600多种不同任务。
论文链接:https://arxiv.org/abs/2205.06175
五、《训练最优计算的大型语言模型》(Training Compute-Optimal Large Language Models)。为了在训练期间实现最优计算,研究人员认为通过相同的因子来缩放模型大小和训练token的数量都很有必要。他们创建了一个名为Chinchilla的模型,例如,该模型的性能优于Gopher,可以使用比Gopher四分之一的参数输出四倍之多的数据。
论文链接:https://arxiv.org/abs/2203.15556
六、《PaLM:使用Pathways缩放语言模型》(PaLM: Scaling Language Modeling with Pathways):文中提出的PaLM模型在各种BIG-bench任务上都展示了令人惊叹的自然语言理解和生成能力。在某种程度上,它甚至能识别出因果关系。
论文链接:https://arxiv.org/abs/2204.02311
七、《基于大规模弱监督方法的鲁棒语音识别》(Robust Speech Recognition via Large-Scale Weak Supervision)。本文介绍了Whisper模型,该模型在多语言任务上接受了68万小时的训练,并表现出了对各种基准数据集(benchmarks)的鲁棒泛化性。
本文介绍的Whisper模型给我留下了深刻的印象。我用它来为我的两门课程深度学习基础——运用现代开源栈学习深度学习以及深度学习引言(Deep Learning Fundamentals – Learning Deep Learning With a Modern Open Source Stack)生成字幕。
论文链接:https://arxiv.org/abs/2212.04356
八、《再论表格深度学习的预训练目标》(Revisiting Pretraining Objectives for Tabular Deep Learning)。我喜欢阅读大量有关Tabular数据的深度学习论文。但我尤其钟爱这篇论文,因为它强调并提醒我们在附加(通常未标记)数据上进行模型预训练是多么重要。(使用如XGBoost等基于树模型无法轻松做到这一点。)
论文链接:https://arxiv.org/abs/2207.03208
九、《为什么基于树的模型在表格数据上的性能仍然优于基于深度学习的模型?》(Why do tree-based models still outperform deep learning on tabular data?)。
该文的主要收获是基于树的模型(随机森林和XGBoost)的性能优于在中型数据集(10k训练示例)上应用表格数据的深度学习方法。但是随着数据集大小的增加(这里:10k→50k),基于树的模型和深度学习之间的差距变得越来越小。遗憾的是,这篇论文没有包含特别多最先进的深度表格网络,不过它进行了鲁棒性分析和有趣的讨论,绝对值得一读。
论文链接:https://arxiv.org/abs/2207.08815
十、《用语言模型预测原子级蛋白质结构的进化程度》(Evolutionary-scale prediction of atomic level protein structure with a language model)。该论文提出了迄今为止预测蛋白质三维结构的最大语言模型,它也比以前的方法运算更快,同时还保持着同样的准确性。
该模型创建了ESM宏基因组图谱,是宏基因组蛋白质的第一个大规模结构表征,具有超过6.17亿个蛋白质结构。
论文链接:https://www.biorxiv.org/content/10.1101/2022.07.20.500902v3
原文链接:https://magazine.sebastianraschka.com/p/ahead-of-ai-4-a-big-year-for-ai
学术头条
新版微信更改了公众号推荐规则,不再以时间排序,而是以每位用户的阅读习惯为准进行算法推荐。在此情况下,学术头条和“学术菌”们的见面有如鹊桥相会一样难得(泪目)
那么,如果在不得不屈服于大数据的当下,你还想保留自己的阅读热忱,和学术头条建立长期的暧昧交流关系,将学术头条纳入【星标】,茫茫人海中也定能相遇~
|点这里关注我
??记得标星|