乾明 鱼羊 栗子 安妮 一璞 边策 发自 凹非寺
量子位 报道 公众号 QbitAI
又一全球 AI 顶会,尽是中国力量举杯相庆。
KDD,数据挖掘领域国际最高级别会议,今年在美国阿拉斯加州举行,最佳论文及三大竞赛等主要奖项,刚刚已全部揭晓。
今年,中国面孔星光璀璨。康奈尔大学华人博士 Dong Kun 以一作身份斩获研究赛道最佳论文,初创公司奖项、KDD CUP 三大赛事,也基本被中国公司包揽。
详情传送如下:
双盲评审第一年,15% 接收率
KDD,国际数据挖掘与知识发现大会,全称:ACM SIGKDD Conference on Knowledge Discovery and Data Mining,是数据挖掘领域国际最高级别会议。
自 1995 年以来,KDD 大会连续举办了二十余届,每年的接收率不超过 20%,今年的接收率不到 15%。
值得一提的是,今年也是 KDD 采用双盲评审的第一年。
依然分为研究赛道和应用赛道。
其中,据已公开消息,KDD 研究赛道共收到 1179 篇投稿,其中111篇被接收为 Oral 论文,63 篇被接收为 Poster 论文,入选率14. 8%。
应用赛道收到 700 余篇论文,其中大 45 篇被接收为 Oral 论文,100 篇被接收为 Poster 论文,接收率20. 7%。
相较而言,KDD 2018 年研究赛道接收 181 篇,接收率为 18.4%,应用赛道接受 112 篇,接收率22. 5%。
强调论文可复现
而且最重要的是,KDD 今年还在投稿通知中特别强调——可复现性——且规定该项会作为最佳论文评选资格,论文需要额外提交内容展示可复现内容。
包括实验方法、经验评估和结果,也鼓励在论文中公开研究代码和数据,尽可能完整地描述论文中使用的算法和资源。
于是,KDD 2019 也成为了备受关注的一届。
来看具体奖项都被哪些团队捧走了:
研究赛道最佳论文
Network Density of States(态网络密度)
https://arxiv.org/pdf/1905.09758.pdf
论文来自康奈尔大学。第一作者是 Dong Kun,康奈尔大学应用数学专业博士生,硕士毕业于 UCLA。
其他作者还有康奈尔大学计算机系助理教授 Austin Reilley Benson 和康奈尔计算机系副教授 David Bindel,他也是 Dong Kun 的博士生导师。
谱分析将图结构与相关矩阵的特征值和特征向量联系起来。许多谱图理论直接来自谱几何,通过相关微分算子的谱来研究可微分流形。但是从谱几何到谱图的转换主要集中在仅涉及少数极端特征值及其相关特征值的结果上。
与几何学不同,通过特征值的整体分布(谱密度)对图的研究主要局限于简单的随机图模型。现实世界图谱的内部仍然在很大程度上难以计算和解释,尚未被探索研究。
在本文中,作者深入研究了真实世界图谱的谱密度。我们借用了凝聚态物理中的研究工具能态密度,并添加了新的适应性来处理常见图形图案的谱特征。所得到的方法是高效的,论文中已经通过计算单个计算节点上具有超过十亿个边缘的图的谱密度说明了这一点。
除了提供视觉上引人注目的图形指纹之外,本文还展示了谱密度的估计如何推动许多常见中心度量的计算,并使用谱密度来估计有关图结构的有意义信息,这些信息无法只从极值本征对中推断得出。
研究赛道第二名论文
Optimizing Impression Counts for Outdoor Advertising
https://dl.acm.org/citation.cfm?doid=3292500.3330829
这项研究解决的,是关于户外广告如何投放才最划算的问题,作者来自墨尔本皇家理工大学、新加坡管理大学、武汉大学和华为。
具体的问题是该团队首次提出的,称之为户外广告印象数(Impression Counts for Outdoor Advertising,ICOA)。
马路边的广告那么多,但能让你有印象的很少,大部分都忘得无影无踪,因此,只要广告在你脑海中留下印象,许多广告主的目的就达到了,这项研究也就是关于如何让更多人留下更深刻印象的。
由于移动互联网的发达,不管你用什么交通方式,开车也好,骑摩托车、自行车也好,你每次出门的轨迹都可以被记录下来,因此研究者们找到了出行轨迹数据库T。在此之外,还有给定的广告牌数据库U和广告主的投放预算B。
因此,概括地说,户外广告印象数是这样一个问题:
广告牌和预算就那么多,路人们就那么走,在这些给定的情况下,如何提升给路人们留下的总印象,让钱花的最值呢?
这里要解决两个问题:
- 每块广告应该让一个路人看到几次;
- 如何布局广告牌的摆放,让更多路人在出行轨迹上刚好看到最佳次数。
第一个问题此前有研究解决了,是一个S形函数,随着广告重复次数增加,给路人留下的印象越来越深刻,之后简单重复就没用了,再多就只有副作用了。
而第二个问题,广告牌分布的问题需要用算法解决。研究团队发现直接用贪心算法是不行的,于是提出了基于切线的算法计算子模块函数,为了提高效率,设计了θ终止方法和渐进式上限估计方法进行优化。
最后,研究团队在用纽约和洛杉矶两个城市的真实轨迹和广告牌数据集进行实验后,验证这项研究中提出的方法是有效的。
应用赛道最佳论文
获得应用赛道最佳论文的是Actions Speak Louder then Goals:Valuing Player Actions in Soccer(行动胜于目标:重视足球中球员的行动):
https://arxiv.org/pdf/1802.07127.pdf
论文的作者包括,来自比利时鲁汶大学的 Tom Decroos,来自 SciSports 公司的 Lotte Bransean 和 Jesse Davis,以及比利时鲁汶大学的 Jesse Davis。
评估足球运动员在比赛中的个人行为表现对比赛结果的影响,是球员招募过程中的考察重点。然而,大多数传统指标在解决此任务时都不尽如人意,因为它们要么专注于单独的镜头画面和目标行为,要么不考虑球员做出某一动作的环境背景。
这篇论文主要介绍了:(1)一种用于描述球场上各个球员动作的新语言,SPADL;(2)一种根据球员表现对比赛结果的影响来评估球员动作的新框架,VAEP,同时考虑到动作发生时的背景。
通过汇总球员的动作价值,就可以量化他们对球队整体进攻和防守的贡献。
这项研究的亮点在在于考虑了通常都会被忽略的动作背景信息,研究团队在 2016/2017 和 2017/2018 赛季的欧洲顶级赛事中用该方法收集了大量的用例。
应用赛道第二名论文
这是一项用可穿戴设备来检测认知功能障碍 可能是痴呆前兆) 的研究,由苹果牵头。
Developing Measures of Cognitive Impairment in the Real World from Consumer-Grade Multimodal Sensor Streams
https://dl.acm.org/citation.cfm?doid=3292500.3330690
可穿戴设备和移动计算设备,如今无处不在,并且在技术上取得了卓越的进步;再加上传感器欧式的多样化,这些进步都给持续监测患者、监测他们的日常活动,提供了可能。
有这样丰富的纵向信息 Longitudinal Informationn) 可挖掘,就能为认知功能障碍来分析心理学和行为学上的特征,并为及时且经济地检测轻度认知功能障碍 MCI) 提供新的途径。
MCI,就是介于正常认知与痴呆之间的状态。
这项研究提出了一个平台,用来远程、不侵犯地监测认知功能障碍的相关症状,只依靠几个消费机的智能设备。
团队展示了,这个平台是怎样在“Lilly 探索性数字评估研究”里面,收集了 16TB 的数据,支持了为期 12 周的可行性研究:监测了 31 位有认知功能障碍的患者,和 82 位没有认知功能障碍的、生活状态自由的人类。
研究人员还说明了,严谨的数据统一 Data Unification) 、时间对齐 Time-Alignment) 以及插补技术 Imputation) ,是怎样处理现实中固有的数据缺失,并最终展现了这样的数据在分辨症状中发挥的作用。
时间检验奖
今年的时间检验奖(test of time award)来自 CMU 和 Nielsen BuzzMetrics,论文为:
Cost-effective outbreak detection in networks
https://www.cs.cmu.edu/~jure/pubs/detect-kdd07.pdf
之所以被评为这个奖,还是因为距离这篇论文在 2007 年首次发出已经过去了 12 年,当时,CMU 的 Jure Leskovec、Andreas Krause、Carlos Guestrin、Christos Faloutsos、Jeanne VanBriesen 和 Nielsen BuzzMetrics 的 Natalie Glance6 人因为这篇文章获得了最佳学生论文。
在这篇论文中,研究人员证明了,很多现实生活中爆发检测(比如检测可能性、检测受影响人群等)表现出“子模块”的特性。
研究人员利用子模块开发出一种有效的算法,名为CELF算法,来优化贪心算法Greedy Algorithm)的效率。其算法如下:
结果表明,CELF 算法可以扩展应用到比较复杂的问题,还能接近最佳位置,同时,比简单的贪心算法快 700倍。
随后,他们在几个大型的真实问题上继续对 CELF 算法进行检验,利用美国国家环境保护局的水分配网络模型和实时博客数据,得到的传感器位置可证明接近最优解,提供了最优解的常数分数。他们还证明了这种方法可以扩展,将存储空间节省几个数量级。
创业研究奖
ACM SIGKDD 于 2017 年推出了创业研究奖,旨在鼓励早期创业公司参与数据科学领域。该奖项由创业研究奖委员会从多家竞争的结果中确定。
今天获奖的四家公司分别是:Arkive、deepair、瑞莱智慧和天眼查。
Arkive 是一家利用机器学习技术管理知识和经验的公司,这家公司的创始人是两名华人。
deepair 为旅行供应商提供基于 AI 的零售平台。
瑞莱智慧是一家向企业提供工业预测性维护、工业检测、无监督反欺诈、人工智能系统攻防等服务的公司。
天眼查在国内的知名度已经相当高,是一家向客户提供企业大数据的公司。
人物奖
在 KDD 的开幕式上,IBM Watson 的研究人员Charu Aggarwal因数据挖掘的终身成就获得了 SIGKDD 的创新奖(Innovation Award)。他还在本次会议上发表了三篇论文。
Charu Aggarwal 于 1993 年在印度理工学校坎普尔分校获得学士学位,之后又获得了博士学位 1996 年到麻省理工学院工作。
他在数据挖掘领域开展了广泛的工作,特别关注数据流、隐私、不确定数据和社交网络分析。他已经出版了 19 本书籍,发表 350 多篇论文,并已申请或获得 80 多项专利。他获得了多项发明成就奖,并且三次被评为 IBM 的发明大师。
同样是来自 IBM Watson 的 Balaji Krishnapuram 获得了 KDD 的服务奖(Service Award),以奖励他对数据挖掘做出的杰出贡献。
它曾在 2014 年至 2016 年担任 ACM SIGKDD 主席,2015 年加入 IBM Watson Health,为制药行业开发 AI 解决方案。
Balaji Krishnapuram,图片来自 Twitter 网友 Prithwish Chakraborty
今年的学位论文奖(Dissertation Award)颁发给了来自华盛顿大学的 Tim Althoff,该奖项第二名是来自 UIUC 的华人学者 Chao Zhang。
KDD CUP 2019
今年的 KDD CUP 有 3 个赛道:
- 常规机器学习竞赛(Regular ML Track)
- 自动机器学习竞赛(Auto-ML Track)
- “Research for Humanity” 强化学习竞赛(Humanity RL Track)
这一赛事,素来有“大数据世界杯”之称,竞争非常激烈。
KDD 官方统计,今年有来自 39 个国家的超过 5000 个人提交了 17000 份申请。
从最终的成绩中来看,中国军团尤为亮眼,包揽了大多数奖项。
首先说常规机器学习竞赛,由百度赞助,一共分为两个任务。
任务 1 的冠军和亚军都来自中国。其中,冠军来自蚂蚁金服;亚军来自上海微盟、趋势科技、滴滴出行、北京邮电大学、华南理工大学、京东等单位。
任务 2 的冠军来自日本电信公司 NTT DOCOMO,亚军来自东南大学。
此外,额外设立的 PaddlePaddle 特别奖则花落中国科学技术大学。
其次是自动机器学习竞赛,由第四范式赞助。
冠军来自中国的深兰科技和北京大学;亚军来自新加坡国立大学;第三名来自于阿里巴巴和佐治亚理工学院。
最后说“Research for Humanity” 强化学习竞赛,由 IBM 和 Hexagon ML 赞助。
冠军来自中国台湾,国立成功大学;亚军来自清华大学、京东和北京航空航天大学,第三名来自瓜子。
竞赛详情地址:
https://www.kdd.org/kdd2019/kdd-cup
One more thing
不止论文、竞赛都被中国军团雄霸。
KDD 2019 赞助商方面,中国力量也格外显眼。
百度、腾讯、滴滴、阿里巴巴、快手、浪潮和字节跳动和松鼠 AI 都出现在赞助名录上。
所以也有调侃称,AI 顶会是时候考虑在中国举办了,毕竟离最核心参与者都更近,还无签证之忧。
你说呢?
— 完 —