否定现有同行,谷歌这篇烧脑研究最终拿下ICML2019最佳论文

  晓查 栗子 安妮 发自凹非寺
  量子位出品 公众号 QbitAI

  ICML 2019 最佳论文来了!

  今年,共有 3424 篇论文提交到这场一年一度的机器学习国际顶会上,大会共接收了 774 篇。有两篇论文,从千军万马中脱颖而出,成为 ICML 2019 最佳论文。

  这份大奖花落谁家?谷歌等一篇名为《挑战无监督分离式表征的常见假设》的论文,表明 没有归纳偏置的) 无监督方法学不到可靠的分离式表征 Disentangled Representations) 。

  这项极富智慧和勇气的研究,几乎全面否定了现有的同行成果,也证明 Hinton 曾经的观点有问题

  另一篇为《稀疏变分高斯过程回归的收敛速率》,作者为剑桥大学的 3 位研究人员。

  详细看今年的最佳研究:

  最佳论文1:分离式表征,没法无监督学习

  先用一句话概括一下:谷歌大脑、ETH 苏黎世、马普所组成的团队测试了 12,000 个模型,对现有的无监督分离式表征学习研究,发出了严重的质疑。

  理解高维数据,用无监督的方式,把知识蒸馏成有用的表征,是深度学习的一个重要挑战。

  一种方法是利用分离式表征 disentangled representation) :

  模型可以捕捉到各种相互独立的特征,如果其中一个特征改变了,其他特征不会受到影响。

  这样的方法一旦成功,就可以做出真实世界里也能用的机器学习系统,不论是给机器人,还是给自动驾驶车,以便应对训练中没见过的场景。

  不过,在无监督的分离式表征学习上,新近的研究都很难看出这些方法到底有多好,局限又有多大。

  谷歌 AI 团队给各种新近的成果,做了一个大规模的评估。评估结果对现有研究提出了严肃的挑战。并且给分离式学习日后的研究,提供了一些建议。

  什么叫大规模的评估?谷歌团队训练了12,000 个模型,覆盖了目前最重要的方法,以及评估指标。

  重要的是,评估过程中用到的代码,以及 10,000 个预训练模型,都已经放出了。

  它们共同组成了一个巨大的库,叫做disentanglement_lib。让后来的研究人员,可以轻松站到前人的肩膀上。

  大规模测试过后,谷歌发现了两个重大的问题:

  1、并没有发现任何经验证据,显示无监督方法可以学到可靠的分离式表征,因为随机种子和超参数似乎比模型的选择 Model Choice) 更重要。

  也就是说,就算训练了大量的模型,一部分得出了分离式表征,也很难在不看 ground truth 标签的情况下把这些表征找出来。

  除此之外,好用的超参数值,也并没有在多个数据集里都好用。

  谷歌团队说,这些结果吻合了他们提出的定理:

  在数据集和模型没有归纳偏置 Inductive Biases) 的情况下,用无监督的方法学习分离式表征是不可能的。

  换句话说,必须要在数据集和模型上,加个前提。

  2、在参加评估的模型和数据集上,并没有证实分离式表征对下游任务有帮助,比如:没有证据表明用了分离式表征,AI 就可以用更少的标注来学习。

  给后来者的建议是:

  • 鉴于理论结果证实,不带归纳偏置 Inductive Biases) 的、无监督学习的分离式表征是不可能实现的,未来的研究应该清楚地描述出归纳偏置,以及隐式和显式的监督方式。
  • 为跨数据集的无监督模型选择,找到好用的归纳偏置,是一个非常关键的问题。
  • 用了分离式表征学习之后的产生的具体优势,应该要证明出来。
  • 实验,应该有可以复现的实验设定,在多种多样的数据集里适用。

  顺便提一句,这是一项中选了 ICLR 2019 workshop 的研究,却最终成了 ICML 的最佳论文。

  最佳论文2:稀疏变分高斯过程回归的收敛速率

  今年 ICML 的第二篇最佳论文是来自英国剑桥大学和机器学习平台 Prowler.io 的研究。

  之前已经有人开发出了一种高斯过程后验的极好变分近似。避免出现数据集大小为N,计算时间复杂度为ON3)的情况,将计算成本降低到ONM2),其中M是一个远小于N的数。

  虽然计算成本对于N是线性的,但算法的真正复杂度取决于如何增加M以确保一定的近似质量。

  本文通过描述向后 KL 散度(相对熵)上界的行为来解决这个问题。研究者证明,若M比N增长得更慢,KL 散度很有可能会变得任意小。一个特例是,对于在具有常见的平方指数核的D维正态分布输入的回归,只要 M = O logN)就足够保证收敛了。

  结果表明,随着数据集的增长,高斯过程后验概率可以被非常容易地近似,并为如何在连续学习场景中增加M提供了一种具体的规则。

  研究者证明了,从稀疏广义回归变分近似到后验广义回归的 KL 散度的边界,它只依赖于之前核的协方差算子特征值的衰减。

  这个边界证明训练数据集中在一个小区域的光滑核允许高质量、非常稀疏的近似。当M≪N时,真正稀疏的非参数推断仍然可以提供对边界似然性和逐点后验的可靠估计。

  本文作者在最后指出,具有非共轭可能性的模型的扩展,尤其是在 Hensman 等人的框架中由稀疏性引入的附加误差,为未来的研究提供了一个有前景的方向。

  这篇文章的第一作者是来自剑桥大学信息工程系的博士研究生 David Burt,他的主要研究领域是贝叶斯非参数和近似推理。

  作者之一 Mark van der Wilk 是 Prowler.io 的研究者,他也是剑桥大学机器学习专业的在读博士研究生,主要的研究领域是贝叶斯推理、强化学习、高斯过程模型等。

  7 篇最佳论文提名

  除了 2 篇最佳论文外,还有 7 篇论文获得最佳论文提名,分别为:

  1Analogies Explained: Towards Understanding Word Embeddings(爱丁堡大学)

  论文地址:https://arxiv.org/abs/1901.09813

  2SATNet: Bridging deep learning and logical reasoning using a differentiable satisfiability solver(CMU、南加州大学等)

  论文地址:https://arxiv.org/abs/1905.12149

  3A Tail-Index Analysis of Stochastic Gradient Noise in Deep Neural Networks(巴黎萨克雷大学等)

  论文地址:https://arxiv.org/abs/1901.06053

  4Towards A Unified Analysis of Random Fourier Features(牛津大学、伦敦过国王学院)

  论文地址:https://arxiv.org/abs/1806.09178

  5Amortized Monte Carlo Integration(牛津大学等)

  论文地址:http://www.gatsby.ucl.ac.uk/~balaji/udl-camera-ready/UDL-12.pdf

  6Social Influence as Intrinsic Motivation for Multi-Agent Deep Reinforcement Learning(MIT、DeepMind、普林斯顿)

  论文地址:https://arxiv.org/abs/1810.08647

  7Stochastic Beams and Where to Find Them: The Gumbel-Top-k Trick for Sampling Sequences Without Replacement(荷兰阿姆斯特丹大学等)

  论文地址:https://arxiv.org/abs/1903.06059

  国内多所高校上榜

  和往常相比,今年的 ICML 格外热闹。

  德国博世公司抓取了 ICML 19 官网上的接收数据,将论文的接受比例、贡献最多的机构以及贡献最大的个人作者统计了出来。不少国内高校和学者榜上有名。

  原统计地址:https://www.reddit.com/r/MachineLearning/comments/bn82ze/n_icml_2019_accepted_paper_stats/

  今年,共提交了 3424 篇论文,接收了 774 篇,接收率为 22.6%。2018 年,ICML 的论文提交量为 2473 篇,接收 621 篇,接收率为 25%。

  和去年相比,今年论文提交论文数量增长不少,但录取率降低

  那么,在这么多投稿机构中,谁是其中贡献度最高的那一个?

  博世统计了接收论文的机构,排名标准是衡量一个机构贡献的论文总量,最终统计结果如下:

  上图红色表示每个机构包含的第一作者,绿色为最后包含的排名最后的作者

  结果显示,科技巨头 Google 贡献最多,MIT 第二,加州大学伯克利分校夺得季军。

  其中,清华大学、北京大学、南京大学、香港中文大学、上海交通大学、阿里巴巴等多个中国高校和公司榜上有名。

  在这些接收论文中,来自学术界的论文数量远多于工业界,论文来源构成如下:

  • 452 篇论文(58.4%)为纯学术研究
  • 60 篇论文(7.8%)来自纯产业界研究机构
  • 262 篇论文(33.9%)的作者同时隶属于学术界和工业界

  总体来看,学术界贡献了 77% 的论文,产业界贡献了 23%。

  在这么多投稿的作者中,哪些作者的贡献度最高?博世同样对此进行了统计。

  结果显示,加州大学伯克利分校的机器学习大牛 Michael Jordan 参与论文数量最多,EPFL(洛桑联邦理工学院)教授 Volkan Cevher 位列第二,加州大学伯克利分校的 Sergey Levine 排名第三。

  也有不少中国学者战绩颇佳,清华大学计算机科学与技术系的教授朱军、微软亚洲研究院的刘铁岩、清华大学软件学院的龙明盛等都在 ICML 2019 发表了 4 篇论文。

  传送门

  最后,附上今年的 ICML 2019 大会官网:

  https://icml.cc/

 

Published by

风君子

独自遨游何稽首 揭天掀地慰生平

发表回复

您的电子邮箱地址不会被公开。 必填项已用 * 标注