机器学习大赛又出骗子!窃取私有数据集 一万美元到手

图:作弊者通过宠物领养平台Petfinder.my收集有关Private Leaderboard的答案,从而获得竟赛冠军

【网易智能讯1月16日消息】世界最知名的数据挖掘以及机器学习竞赛平台Kaggle刚刚宣布,获得最新竞赛的冠军团队Bestpetting因涉嫌作弊而被剥夺了冠军头衔。该团队通过宠物领养网站Petfinder.my收集Private Leaderboard的答案,然后将这些数据隐藏在他们提交的文件中,并于2019年4月9日赢得年度冠军。在总共25000美元的奖金池中,Bestpetting团队获得了10000美元,如今这笔资金已经无法追回。

何为Kaggle竞赛?

Kaggle谷歌子公司)是一个围绕建立机器学习模型的竞赛而建立起来的在线社区,该平台的奖金池高达150万美元,吸引了各种各样的数据玩家。Kaggle为竞赛提供数据集,以及将用于决定获胜而提交的指标。参赛者分析给定的数据,构建模型以匹配期望的结果,然后提交结果通常与代码一起提交)。为了防止有人作弊,机器学习竞赛使用没有标记的数据,并分两个阶段使用:

第一,当比赛结束后,参赛者只拥有作为未标记数据的数据集中的“私人”部分,用于帮助选择获胜者。在理想情况下,此数据可以表示模型将如何对以前从未见过的数据执行相关操作。

第二,为了在比赛期间对参赛者进行排名,参赛团队提交的作品会根据数据集中专门用于leaderboard临时成绩)的部分进行评分。就像“私人”测试数据一样,参赛者可以使用这些数据,但没有标准。单独针对leaderboard指标进行优化的团队,通常会因为不适用于数据集的“私人”部分而失败。

使用私人数据作弊

这种竞赛形式的结果是,如果某个团队获得了私有测试数据集的基本事实答案,那么它获胜的可能性就会大增。但作弊团队构建的模型往往是无效的,会使竞赛变得毫无意义。在这种情况下,作弊者会在提交答案的同时附上自己的答案。

其他的作弊方式可能更难以察觉。其中一种方法是使用完整的数据集来优化超参数,从而创建一个看似更有效的模型。也许作弊团队会选择更容易检测的方法,因为他们根本没有能力创建值得被选入leaderboard的模型,也有可能是因为他们不愿费更多心思。

解决这些问题的办法可能是将私人数据完全排除在竞赛之外,提交必须包括提供API来生成预测的代码,但这也将防止参赛者知道私人和leaderboard数据中的功能分布。

Kaggle竞赛的阴暗面

Kaggle竞赛有很多潜在的问题。有人在检测信用卡诈骗的竞赛中偶然发现了一个例子。一种流行的模型正在使用来自未来的信息进行培训,这将使其在实践中无法使用,毕竟银行无法预测这些尚未发生的事情。许多模型使用数据集的方式会产生更高的分数,但会使模型对竞赛组织者毫无用处。不过,这些模型仍然可以赢得竞赛,因为他们没有违反任何规则。

由于可能存在的这些漏洞和无用结果,竞赛组织者必须对他们的数据和规则格外警惕和谨慎。有些人要求举行多轮竞赛选拔胜者,有些人建议平均分配奖金给更多的顶级参赛者。

作弊惯犯

Bestpetting团队由帕维尔·普莱斯科夫(Pavel Pleskov)、纳雷克·马洛扬Narek Maloyan)和费多尔·多布里扬斯基Fedor Dobryanski)组成。这并不是普莱斯科夫第一次破坏Kaggle竞赛,也不是第一次被指控作弊,只是过去Kaggle竞赛组织方没有相关预防措施,而且普莱斯科夫本身也是Grandmaster级别的大牛。

图2:在Kaggle竞赛中被曝作弊的帕维尔·普莱斯科夫

普莱斯科夫被剥夺冠军头衔,并被禁止进入Kaggle平台,记者还联系了普莱斯科夫的雇主H2O.ai,请其发表评论。后者的发言人英格丽德·伯顿(Ingrid Burton)回应称:“今天早些时候,我们已经知道了情况。普莱斯科夫不再与H2O.ai有关联,立即生效。我们还将与Petfinder.my联系,看看我们能为他们提供什么帮助。”

我门没有找到费多尔·多布里扬斯基Fedor Dobryanski)的进一步信息,他也被禁止进入Kaggle平台。不过,纳雷克·马洛扬Narek Maloyan)没有被禁。

Kaggle有更光明的未来

Published by

风君子

独自遨游何稽首 揭天掀地慰生平

发表回复

您的电子邮箱地址不会被公开。 必填项已用 * 标注