刚刚,NeurIPS 2020在官网公布了2020年度最佳论文奖和时间检验奖两项大奖!今年一共有三篇论文共同获得最佳论文奖,其中第二篇获奖论文就是来自OpenAI团队打造的今年AI圈最为火爆的GPT-3!时间检验奖则是由威斯康星麦迪逊分校团队发表于NeurIPS 2011上的一篇论文获得,其一作为本科毕业于清华大学计算机系的华人Feng Niu。
最佳论文获奖一:《Language Models are Few-Shot Learners》。这篇获奖论文工作就是无人不知无人不晓的来自OpenAI团队打造的今年AI圈最为火爆的GPT-3!论文摘要:我们证明,通过扩大语言模型的参数规模,可以极大地提高与任务无关的、少样本学习性能,有时甚至可以与现有的当前最佳微调方法相提并论。
具体来说,我们训练了GPT-3(一个具有1750亿个参数的自回归语言模型,参数量是以前的任何非稀疏语言模型的10倍),并在少样本学习设置下测试其性能。对于所有任务,GPT-3都可以在不进行任何梯度更新或微调的情况下使用,仅需要通过与模型的文本交互指定任务和少量演示即可。GPT-3在许多NLP数据集上均具有出色的性能,包括翻译、问答等任务。
不过,我们还发现了一些数据集,在这些数据集上GPT3的少样本学习仍然困难重重。此外,在一些数据集上,GPT-3也面临一些与大型Web语料库训练有关的方法论问题。
最佳论文获奖二:《Improved guarantees and a multiple-descent curve for Column Subset Selection and the Nystrom method》。
论文摘要:列子集选择问题(CSSP)和Nystrom方法是机器学习和科学计算中构造大数据集、小低阶秩近似的主要工具之一。这个领域的一个基本问题是:大小为k的数据子集与最佳秩k近似的竞争程度如何?我们开发了利用数据矩阵的光谱(spectra)特性的技术,以获得超出标准最差用例(worstcase)分析的改进近似保证。
对于已知奇异值衰减率(如多项式或指数衰减)的数据集,我们的方法可以得到更好的边界(bound)。我们的分析还揭示了一个有趣的现象:近似因子作为k的函数可能会出现多个峰和谷,我们称之为多重下降曲线(multipledescent curve)。我们建立的一个下限表明,这种行为不是我们分析的产物,而是CSSP和Nystrom任务的固有属性。
最佳论文获奖三:《No-Regret Learning Dynamics for Extensive-Form Correlated Equilibrium》。论文摘要:在多智能体系统理论中,有一个值得称赞的结果,即简单、不耦合的无遗憾(no-regret)动态在常规形式的博弈中收敛到相关的均衡中。具体地说,这个结果已经有20多年的历史了。
当所有玩家都试图在重复的常规形式博弈中最大程度地减少其内部遗憾(internal regret )时,博弈的经验频率会收敛至常规形式的相关平衡。广义形式的博弈(即树状形式的博弈)通过对顺序移动(sequential move)、同时移动(simultaneous move)以及私人信息进行建模来泛化常规形式的博弈。
由于博弈的顺序性质,以及部分信息的存在,广义形式的关联与常规形式的关联相比,具有显着不同的属性,其中许多仍然是开放的研究方向。广义形式的相关均衡(Extensive-form correlated equilibrium,EFCE)已被提议为常规形式的相关均衡的自然广义对应。但是,目前尚不知道EFCE是不是由于未耦合的智能体动态而产生的。
在本文中,我们给出了第一个解耦的无遗憾动态,该动态收敛到具有完美召回作用的n玩家一般和(general-sum)广泛形式博弈中的EFCE集。首先,我们在广义形式的博弈中引入触发遗憾(trigger regret)的概念,从而扩展了在常规形式的博弈中内部遗憾的概念。当每个玩家的触发遗憾低时,经验的博弈频率接近EFCE。然后,我们给出了一种有效的无触发遗憾算法。
我们的算法将触发遗憾在每个决策点分解为玩家的局部子问题,并根据每个决策点的局部解构造玩家的全局策略。
时间检验奖获奖论文:《HOGWILD!: A Lock-Free Approach to Parallelizing Stochastic Gradient Descent》。
论文作者:Feng Niu、Benjamin Recht、Christopher Re、Stephen J. Wright。论文华人一作Feng Niu本科就读于清华大学计算机系,2012年博士毕业于威斯康星麦迪逊分校计算机系,目前在苹果公司任研究科学家。论文摘要:随机梯度下降算法(SGD)是一种非常流行的算法,可以在各种机器学习任务上实现SOTA的性能。
一些研究人员最近提出了SGD的并行化方案,但是都需要降低性能的内存锁定和同步(memory locking and synchronization)。本文工作的目的是使用新的理论分析、算法和实现来证明SGD可以在没有任何锁定( locking)的情况下实现。我们提出了一个称为HOGWILD!的新方案,它允许处理器访问共享内存,有可能重写对方的工作。
我们证明了,当相关优化问题稀疏时,大多数梯度更新只能修改决策变量的一小部分,而HOGWILD!几乎达到最佳收敛率。我们用实验证明,HOGWILD!的性能优于使用锁定( locking)方案一个数量级。