NeurIPS 2021 将于下周正式召开。
今天,大会委员会公布了 NeurIPS 2021 的杰出论文奖,时间测试奖,以及今年新设的数据集和测试基准最佳论文奖。
今年有六篇论文被选为杰出论文奖的获得者。委员会之所以选择这些论文,是因为它们具有出色的清晰度、洞察力、创造力和持久影响的潜力。
A Universal Law of Robustness via Isoperimetry
论文地址:
https://openreview.net/pdf?id=z71OSKqTFh7
这篇论文来自微软以及斯坦福大学,关键字为对抗鲁棒性、过参数化和 isoperimetry(等周图形学)。
获奖理由:
本文提出了一个理论模型,来解释为什么许多 SOTA 深度网络模型需要比平滑拟合训练数据还需多得多的参数。
特别地,在训练分布的某些规律性条件下,O 1)-Lipschitz 函数在标签噪声 scale 之下插入训练数据所需的参数数量为 nd,其中 n 是训练示例的数量,d 是数据的维度。
这一结果与传统结果形成鲜明对比。传统结果表明一个函数需要 n 个参数来插入训练数据,而现在则发现,参数 d 似乎是保证数据平滑插入所必需的。
该理论简单而优雅,和对 MNIST 分类具有鲁棒泛化能力的模型规模的观察结果也一致。
这项工作还为 ImageNet 分类开发稳健模型所需的模型大小提供了可测试的预测。
On the Expressivity of Markov Reward
论文地址:
https://openreview.net/forum?id=9DlCh34E1bN
这篇论文来自 DeepMind、普林斯顿大学和布朗大学,研究方向为强化学习,通过检查马尔可夫奖励函数可以表达什么样的任务来研究有限环境中马尔可夫奖励函数的表达能力。
获奖理由:
马尔可夫奖励函数是不确定性和强化学习下顺序决策的主要框架。
本文详细、清晰地阐述了马尔可夫奖励何时足以或不足以使系统设计者根据其对行为、特定行为的偏好,或对状态和动作序列的偏好来指定任务。
作者通过简单的说明性示例证明,存在一些无法指定马尔可夫奖励函数来引发所需任务和结果的任务。
幸运的是,他们还表明,可以在多项式时间内确定所需设置是否存在兼容的马尔可夫奖励,如果存在,也存在多项式时间算法来在有限决策过程设置中构建这样的马尔可夫奖励。
这项工作阐明了奖励设计的挑战,并可能开辟未来研究马尔可夫框架何时以及如何足以实现人类所需性能的途径。
Deep Reinforcement Learning at the Edge of the Statistical Precipice
论文地址:
https://openreview.net/forum?id=uqv8-U4lKBe
论文来自谷歌、蒙特利尔大学和麦吉尔大学,研究方向也是强化学习。
获奖理由:
方法的严格比较可以加速有意义的科学进步。本文提出了提高深度强化学习算法比较严谨性的实用方法。
具体而言,新算法的评估应提供分层的引导程序置信区间、跨任务和运行的性能概况以及四分位数均值。
该论文强调,在许多任务和多次运行中报告深度强化学习结果的标准方法,可能使评估新算法和过去方法之间的一致性和提升变得困难,并通过实证示例说明了这一点。
所提出的性能比较方法旨在通过每个任务的少量运行进行计算,这对于许多计算资源有限的研究实验室来说可能是必要的。
MAUVE: Measuring the Gap Between Neural Text and Human Text using Divergence Frontiers
论文地址:
https://openreview.net/forum?id=Tqx7nJp7PR
论文作者来自华盛顿大学、艾伦研究所和斯坦福大学。
获奖理由:
本文介绍了 MAUVE,这是一种比较模型生成文本分布与人类生成文本分布的散度度量。这个想法简单而优雅,它基本上使用了被比较的两个文本的量化嵌入的(soft)KL 散度测量的连续族。
本出提议的 MAUVE 度量本质上是对连续度量系列的集成,目标是捕获 I 类错误(生成不切实际的文本)和 II 类错误(不捕获所有可能的人类文本)。
实验表明,与之前的散度指标相比,MAUVE 可以识别模型生成文本的已知模式,并且与人类判断的相关性更好。
这篇论文写得很好,研究问题在开放式文本生成快速发展的背景下很重要,而且结果很明确。
Continuized Accelerations of Deterministic and Stochastic Gradient Descents, and of Gossip Algorithms
论文地址:
https://openreview.net/forum?id=bGfDnD7xo-v
本篇论文来自巴黎文理研究大学、洛桑联邦理工学院、格勒诺布尔-阿尔卑斯大学、MSR-Inria 联合中心。
获奖理由:
本文描述了 Nesterov 加速梯度方法的“连续化”版本,其中两个独立的向量变量在连续时间内共同演化 —— 很像以前使用微分方程来理解加速度的方法 —— 但使用梯度更新,随机时间发生在泊松点过程。
这种新方法导致了一种(随机化)离散时间方法:
-
1) 与 Nesterov 方法具有相同的加速收敛性;
-
2) 带有利用连续时间参数的清晰透明的分析,这可以说比之前对加速梯度方法的分析更容易理解;
-
3) 避免了连续时间过程离散化的额外错误,这与之前使用连续时间过程理解加速方法的几次尝试形成鲜明对比。
Moser Flow:Divergence-based Generative Modeling on Manifolds
论文地址:
https://openreview.net/forum?id=qGvMv3undNJ
本文作者来自魏茨曼科学研究学院、Facebook 和加州大学洛杉矶分校。
获奖理由:
本文提出了一种在黎曼流形上训练连续归一化流 CNF) 生成模型的方法。关键思想是利用 Moser 1965) 的结果,该结果使用具有几何规律性条件的受限常微分方程(ODE)类来表征 CNF 的解,并使用散度明确定义目标密度函数。
本文提出的 Moser Flow 方法使用此解决方案概念,来开发基于参数化目标密度估计器的 CNF 方法。训练相当于简单地优化密度估计器的散度,回避运行标准反向传播训练所需的 ODE 求解器。
实验表明,与之前的 CNF 工作相比,它的训练时间更快,测试性能更出色,并且能够对具有非常数曲率的隐式曲面的密度进行建模。
时间检验奖
从去年开始,NeurIPS 时间检验奖(Test of Time Award)选择了更广的年限范围。因此,今年大会委员会选择 2010 年 2011 年论文。
在 16 篇引用量超过 500 的论文里,委员会选择了这篇论文:
Online Learning for Latent Dirichlet Allocation
论文地址:
https://proceedings.neurips.cc/paper/2010/file/71f6278d140af599e06ad9bf1ba03cb0-Paper.pdf
作者来自普林斯顿大学和法国国家信息与自动化研究所。
第一作者 Matthew D. Hoffman 发表这篇论文时,曾经在普林斯顿攻读博士学位,现在他是谷歌一名高级研究科学家。
本文介绍了一种基于随机变分梯度的推理过程,用于在非常大的文本语料库上训练潜在狄利克雷分配 LDA) 模型。在理论方面,它表明训练过程收敛到局部最优,令人惊讶的是,简单的随机梯度更新对应于 ELBO 目标的随机自然梯度。
在实证方面,作者首次表明 LDA 可以轻松地在数十万个文档的文本语料库上进行训练,使其成为解决“大数据”问题的实用技术。
这个想法在机器学习社区产生了很大的影响,因为它是更广泛模型类别的一般随机梯度变分推理过程的基础。这篇论文之后,就没有充分的理由再使用完整的批次训练程序进行变分推理了。
数据集和基准测试最佳论文奖
今年 NeurIPS 推出了新的数据集和基准测试(Datasets & Benchmarks)赛道,表彰在数据领域的工作。
该领域的 2 篇最佳论文奖分别是:
Reduced, Reused and Recycled: The Life of a Dataset in Machine Learning Research
论文地址:
https://openreview.net/forum?id=zNQBIBKJRkd
这篇论文作者来自加州大学洛杉矶分校和谷歌。
本文分析了数千篇论文并研究了不同机器学习子社区中数据集使用的演变,以及数据集采用和创建之间的相互作用。
作者发现,在大多数社区中,随着时间的推移,使用不同数据集的人更少了,而且人们使用的数据集基本都来自少数精英机构。
这种变化是有问题的,因为基准变得不那么具有普遍性,这些数据集来源中存在的偏见可能会被放大,并且研究界更难接受新的数据集。
这对整个机器学习社区来说是一个重要的“警钟”,让他们更加批判性地思考哪些数据集用于基准测试,并更加重视创建新的、更多样化的数据集。
ATOM3D: Tasks on Molecules in Three Dimensions
论文地址:
https://openreview.net/forum?id=FkDZLpK1Ml2
这篇文章作者来自于斯坦福大学和芝加哥大学。
本文介绍了一组基准数据集,其中包含小分子和/或生物聚合物的 3D 表示,用于解决单分子结构预测和生物分子之间的相互作用,以及分子功能和设计与工程任务问题。
这篇文章将 3D 模型的实现与具有 1D 或 2D 表示的 SOTA 模型进行基准测试,并显示出比低维对应物更好的性能。这项工作提供了有关如何为给定任务选择和设计模型的重要见解。
这项工作不仅提供了基准数据集,还提供了基线模型和开源工具来利用这些数据集和模型,大大降低了机器学习人员进入计算生物学和分子设计的门槛。