AI周报:CV圈杀疯了,连续四篇相关论文;AI模型SEER“一视同仁”;北大博士干半年外卖骑手写AI伦理论文登上顶刊

来源: AI周报学术头条

发布日期: 2021-05-10

本周AI周报涵盖了多篇关于计算机视觉、自然语言处理和AI伦理的论文,包括清华大学和牛津大学学者的MLP相关研究、谷歌的MLP-Mixer架构、中科院计算所的ProFOLD蛋白质结构预测算法、Facebook AI的SEER模型以及谷歌AI研究院关于数据质量的讨论。此外,还涉及清华袁洋关于AI医疗的观点、北大博士陈龙的AI伦理研究、沈向洋关于深度智能的演讲,以及特斯拉Autopilot的实际水平和Cohere公司的成立。

外卖骑手,再次引发全网关注。这一次是发表在顶刊《社会学研究》上的一篇博士论文。北大博士后陈龙为做研究,加入了在中关村的一个外卖骑手团队,体验了5个半月的配送工作,写成了这样一篇长达23页的论文,题目为《“数字控制”下的劳动秩序 - 外卖骑手的劳动控制研究》。

一、技术理论前沿

1. CV圈杀疯了!继谷歌之后,清华、牛津等学者又发表三篇MLP相关论文,LeCun也在发声。

5月5日,清华大学图形学实验室Jittor团队在arXiv上提交了一篇和MLP相关的论文《Beyond Self-attention: External Attention using Two Linear Layers for Visual Tasks》。

这篇论文提出了一种新的注意力机制,称之为External Attention——基于两个外部的、小的、可学习的和共享的存储器,只用两个级联的线性层和归一化层就可以取代了现有流行的学习架构中的“Self-attention”,进一步揭示了线性层和注意力机制之间的关系。

同日,清华大学软件学院丁贵广团队在arXiv上也提交了论文《RepMLP: Re-parameterizing Convolutions into Fully-connected Layers for Image Recognition》,这篇论文展示了结合重参数化技术的MLP也能取得非常不错视觉的效果。

而就在昨天(5月6日),AI科技评论发现,牛津大学的学者提交了一篇名为《Do You Even Need Attention? A Stack of Feed-Forward Layers Does Surprisingly Well on ImageNet》的论文,也提出了Transformer中的attention是不必要的,仅仅使用Feed forward就可以在ImageNet上实现非常高的结果。

以上三篇论文加上谷歌的MLP-Mixer论文,这四篇论文或许真的正在拉开计算机视觉研究的一个新的一角。

2. 谷歌最新提出无需卷积、注意力,纯MLP构成的视觉架构!网友:MLP is All You Need?

近日,谷歌大脑团队新出了一篇论文,题目为《MLP-Mixer: An all-MLP Architecture for Vision》,这篇论文是原视觉Transformer(ViT)团队的一个纯MLP架构的尝试。本文总结来说就是提出了一种仅仅需要多层感知机的框架——MLP-Mixer,无需卷积模块、注意力机制,即可达到与CNN、Transformer相媲美的图像分类性能。

这个MLP-Mixer的新框架如下图,它不使用卷积或自注意力机制。相反,Mixer体系架构完全基于在空间位置或特征通道上重复应用的多层感知器(MLP),它只依赖基础的矩阵乘法操作、数据排布变换 (比如reshape、transposition) 以及非线性层。

3. ProFOLD:普通笔记本3小时跑完的蛋白质结构「从头预测」,努力赶超AlphaFold2。

中科院计算所卜东波团队近日于Nature Communications发表论文“CopulaNet: Learning residue co-evolution directly from multiple sequence alignment for protein structure prediction”,介绍一个新的神经网络架构CopulaNet,可从目标蛋白质的多序列联配直接估计出残基间距离,克服了传统统计方法的“信息丢失”缺陷;并以CopulaNet为核心开发了蛋白质结构“从头预测”算法和软件ProFOLD。

在CASP13测试集上,ProFOLD达到了0.7的预测精度(以天然态结构和预测结构之间的TM-score为衡量标准),优于AlphaFold(约为0.5)。

4. 10亿参数的AI模型SEER「一视同仁」:服务富人,也服务全世界。众所周知使用经过挑选和标记的数据集对人工智能系统进行训练,产生了专门的人工智能模型,擅长对象识别等任务。

但是仅仅依靠这种方法也有实际的局限性,其中一个我们认为特别重要:这样的系统可能难以识别那些日常生活中很常见,但是在训练人工智能系统的数据中「没有被充分代表」的对象。尤其是,关于训练哪些图片以及如何给它们贴标签的选择,这可能在不经意间引入「偏见」。SEER是Facebook AI团队开发的一种新的高性能计算机视觉系统。

通过利用自监督学习,SEER可以从任何数字图片集中学习,而不需要研究人员来挑选和标记每个对象。初步评估表明,SEER在识别物体方面比传统的计算机视觉系统表现更好,这些物体虽然来自数十亿人的生活,但在用于训练人工智能系统的传统图片数据集中「体现较少」。

5. 谷歌AI研究院:被低估的数据,被高估的模型。得益于算法、算力和数据这三驾马车,人工智能在2006年后获得了巨大的发展。

近日,来自谷歌的研究员在一篇题为“Everyone wants to do the model work, not the data work”的论文中指出:数据质量在AI中起到的作用正在被低估,数据质量在高风险AI应用中十分重要,尤其是对癌症检测、野生生物偷猎等下游任务中巨大。

二、观点评论解读

1. 清华袁洋:智能医疗不是让AI替代医生,而是……时至今日,AI医疗虽然已经在药物筛选、辅助诊断等方面有了丰富的应用场景,但仍然存在数据集小、容错成本高等问题。AI医疗,归根结底,应聚焦以人为本,从实际场景出发更好地帮助医患。对此,清华大学交叉信息学院助理教授、智源青年科学家袁洋提出AI会从六大方面改变整个医疗体系,包括数据格式与数据采集、医患交互、治疗方案、患者反馈、医生评价和挂号。

2. 北大博士干了半年外卖骑手,写出AI伦理论文登上顶刊,“系统知道一切”。外卖骑手,再次引发全网关注。这一次是发表在顶刊《社会学研究》上的一篇博士论文。北大博士后陈龙为做研究,加入了在中关村的一个外卖骑手团队,体验了5个半月的配送工作,写成了这样一篇长达23页的论文,题目为《“数字控制”下的劳动秩序 - 外卖骑手的劳动控制研究》。在AI系统的驱动、调度下,这种剧变正在影响每一个人。

管理一般有三个方面:指导、评估以及奖惩激励。以往这些工作都是老板去决定的。现在的情况则是,平台给骑手派单,并告诉他们应该如何送;消费者来评估骑手的好坏表现;平台又根据消费者的评估,来决定奖惩。也就是说,由AI系统来负责第一项、第三项工作,第二项则交给了消费者。专业一点,就是数字治理。

3. AI大牛沈向洋:中国土豪疯“造车”,与“造芯”不同,自动驾驶需建立在强大仿真技术上。

在近日举行的人工智能与机器人国际研讨会上,沈向洋发表了题为《从深度学习到深度智能》的演讲。“过去几年人工智能发展非常迅猛,其中最重要的是深度学习。”沈向洋回顾了人工智能在过去十年的发展特点:一是在大数据利用方面有着惊人的有效性,表现是DNN的巨大进步离不开海量数据的支撑;二是对计算能力的需求日益增长,我们设计的算法越来越依赖于算力处理数据;三是虽然深度神经网络有巨大进展,但通用人工智能的进展缓慢。

沈向洋表示,深度学习只是狭义的人工智能,必须构建Robust AI才能实现真正的强人工智能。Robust AI对应深度智能,强调系统化地解决宽泛的问题,具备灵活与动态的推理能力,可以很好地移植到不同场景。

沈向洋认为,实现robust AI可以从三方面入手:一是构建大规模的强机器学习仿真器,涉及游戏及自动驾驶等复杂系统;二是对于机器学习本质的深度理解,从优化功能开始,思考我们从里面真正学到的是什么;三是基于神经与符号的混合模型。

三、产业动态聚焦

1. 特斯拉工程师自曝:Autopilot只有L2自动驾驶水平,别信马斯克说的。

每家造车新势力都在渲染自动驾驶的美好前景,其中最负盛名的特斯拉Autopilot,因为马斯克一次次的宣传而深入人心。但他一直以来对于这些功能的描述是存在重大误导的。特斯拉CEO伊隆·马斯克有关该公司产品能够实现「完全的自动驾驶」的说法,一直让人们对于未来充满希望,但刚刚公开的一份调查记录显示,特斯拉自己的工程师对这样的主张并不赞同。

该公司的自动驾驶软件主管CJ Moore今年3月曾向加州车辆管理局DMV说,自家CEO高估了特斯拉汽车自动驾驶辅助系统的能力。这是马斯克不断发表的自动驾驶汽车愿景,和AI技术实际落地进展之间差距不断增大的最新一次矛盾。随着特斯拉在德州驾驶座无人的情况下撞毁,并造成两人伤亡事故,这家公司的技术正在接受越来越严格的审查。

2. Transformer作者创建,Hinton、李飞飞、Goodfellow等大佬投资,这家新公司要做什么?近日,Transformer作者之一Aidan Gomez在推特上宣布,他们创办了一家名为Cohere的自然语言处理公司,基于自己训练的大型NLP模型为外界提供API服务。

该公司在主页上写道:语言对于人类来说至关重要,但计算机在解析语法、语义和语境方面存在困难,这一障碍限制了我们与技术沟通的能力。因此,Cohere的使命就是构建一种能够理解世界的机器,并让所有人安全地使用它们。比公司业务更令人瞩目的是投资阵容。

据报道,这家公司的早期投资者包括图灵奖得主Geoffrey Hinton、GAN之父Ian Goodfellow、Uber首席科学家Raquel Urtasun、英伟达多伦多研究实验室主任Sanja Fidler以及斯坦福大学教授李飞飞等。团队的创始成员也都是预训练模型领域的资深研究者。其中,联合创始人共有三位。

Aidan Gomez本科就读于多伦多大学,是牛津大学Yarin Gal和Yee Whye Teh的博士生。他曾在谷歌大脑团队的Geoffrey Hinton和Łukasz Kaiser组内工作。Ivan Zhang本科同样就读于华盛顿大学,不同的是,他选择了辍学并进入生物技术公司Ranomics工作。

另一位联合创始人Nick Frosst是Geoffrey Hinton在多伦多谷歌大脑实验室的第一位员工,他在那里度过了三年的机器学习研究生涯,主要研究兴趣为胶囊网络、对抗样本和可解释性。

UUID: f3dea8f2-a036-4020-95b2-51beadda88fa

原始文件名: /home/andie/dev/tudou/annot/AI语料库-20240917-V2/AI语料库/学术头条公众号-pdf2txt/学术头条2021年/2021-05-10_CV圈杀疯了,连续四篇相关论文;AI模型SEER“一视同仁”;北大博士干半年外卖骑手写AI伦理论文登上顶刊AI周报.txt

是否为广告: 否

处理费用: 0.0097 元