消失的人工智能 “法外之地”

　　文丨谭婧

　　美国首都华盛顿特区，国会山庄北部。一阵笑声，从玻璃窗里传出。窗外晴空万里、绿野满坡，圆柱式门廊气势恢宏……

　　世界顶级立法机构的办公环境，果然宜人。

　　这一切，对于 40 岁就坐到参议院办公桌前的霍利（Josh Hawley）来说，他的黄金岁月才刚刚开始。

　　2019 年，分水岭。

　　此前，他是美国密苏里州第 42 任司法部长。

　　此后，他是美国国会参议员。

　　作为一个每天都在上演“提案如何变成法律”的立法机构，美国国会的关键词本该是“庄严”。然而，国会却频繁“做客”美国脱口秀演播间。

　　很多年前，马克·吐温讲出了实话：“这是一群‘土生土长的犯罪团伙’”。

　　而霍利在同僚中，保持着一项幸运的记录——本届美国参议院最年轻的议员。

　　对于政治家来说，年轻与激进都是优势。川建国拥有后者。霍利，两者兼具。

　　上任不久，他迅速成为共和党在科技产业问题上最响亮的声音。

　　东边日出，西边雨。

　　一种浓烈的自豪感，正在“抖音在国外有多火？”话题的带动下升腾。

　　无数掌声，正在送给头条系产品——抖音面向中国以外市场的 TikTok。

　　政客高亢激昂的演讲、TikTok 节奏强劲的短视频，就像“含笑半步癫”，是洗脑、居家、旅游的必备良药。

　　而今，在美国，它们混淆在一起，成了一种不和谐的背景音。

　　北京时间 3 月 5 日凌晨，华盛顿特区，一场美国国会参议院的听证会，正围绕用户数据安全、隐私问题展开。霍利议员挥舞起旗帜，在个人主页用加粗字体写下大大的标题：TikTok 是“危险的伙伴”。

　　霍利早都准备好了。

　　他自信满满地坐在听证会的皮椅上，却久久未等到两位主角到场。

　　一则快报的标题是《TikTok 和苹果，两公司双双缺席听证会》。

　　TikTok 发言人告诉媒体：“我们感谢霍利参议员的邀请。不幸的是，短期内，我们无法提供能够为实质性的讨论做出贡献的证人。”

　　霍利坐在椅子上回忆，这是 TikTok 第二次拒绝参加听证会。

　　上次是 2019 年 11 月。

　　霍利能高兴嘛？虽然他知道自己这样做也只是为了吸引媒体注意，但是没有配合的演出，就是大写的尴尬。

　　“拒绝参演”后的整整一个月，TikTok 都没有闲着，2019 年 12 月赶紧发布了上半年《透明报告》，虽然内容不长，只有 5 页，但态度还是优秀的。Facebook 自 2013 年起，也会定期发布。

　　一面，霍利等国会参议员已经开启团队作战模式，加入的参议员越来越多。

　　一面，TikTok 呢，越来越争气。

　　在美国已下载超过 1.23 亿次。

　　在每月 5 亿活跃用户中，有 2650 万来自美国。

　　约有 60％在 16 至 24 岁之间。

　　在不到 18 个月的时间里，美国成人 TikTok 用户数量增长了 5.5 倍。

　　议员们一边开会讨论，一边看着 TikTok 增长曲线往会议室天花板上窜。

　　霍利站立起来，说出他的好主意：

　　怀疑 TikTok 上传的短视频可能会泄露美军的秘密，对于美国能够接触到敏感的国家安全信息的人，禁止在政府设备上安装 TikTok。

　　公务员管公务员，没毛病。

　　在听证会后，TikTok 觉得此事得当面解释清楚，表示：

　　“（我们）最近与几位国会议员取得了联系，（大家）有兴趣在不久的将来见面。”

　　除了可能的约咖啡、约饭之外，TikTok 也绞尽脑汁。比如，计划建立一个“透明中心”，允许外部专家查看公司团队如何管理短视频内容。

　　据说，位于美国洛杉矶，将于 2020 年 5 月开放，共享源代码和公开独立安全措施。

　　这里的工作令人向往，每天都看各种有趣的短视频，像极了很多人疫情期间每天躺在床上的销魂姿势。不用愧疚，大家都中了毒，用户平均每天在 TikTok 上花费 52 分钟。

　　为了证明产品“无毒”，让美国用户“吃”得放心，TikTok 快马加鞭复制出西贝莜面村同款透明厨房。

　　听证会上的一切发言，都是要宣誓的。怀疑、质疑、传闻，都可以让美国立法机构采取一定程度的行动，而不限于事后惩罚。美国立法机构质疑 TikTok 产品层面的数据收取、保存路径。

　　谁能想到，TikTok 会和数据泄露界的“犯罪之王”脸书公司相提并论，同样成为讨论数据安全、隐私问题的焦点。

传说中的 TikTok（美国加州办公室）

　　TikTok 背过脸，轻轻拭去脸上的泪水，有些眼泪是因违反美国儿童隐私法，被罚了几百万美金而流下的。

　　华盛顿夜未眠，立法争论永不休。

　　这只是一道坎而已，九九八十一难在后面排队拿号。

　　2020 年 3 月 6 日。

　　听证会的第二天，TikTok 有了首位首席信息安全官 Roland Cloutier，他也是一位网络安全专家，向抖音负责人朱骏（Alex ZHU）汇报。

　　这一消息，霍利也注意到了。

　　中国互联网公司全球化的阻力好比台风天黑压压的乌云，有一朵，始终是数据安全和用户隐私。

　　东边日出，西边雨。

　　美国国会立法调查好比“鹰眼”，欧盟《一般数据保护条例》（GDPR）好比“鹰爪”。为保护数据，GDPR 已经织起了天罗地网。一项强制性法律，保护的是自然人的“个人数据”，包括姓名、生日、信用卡、地址、病史、位置信息、行踪轨迹……

　　这个条例对 AI 技术的约束是从摇篮到墓地。“摇篮”是指，一开始获得授权，得用户点击“同意”；而“墓地”就是，数据用完了也不能存太久，还得抓紧时间删除。

　　《三国杀》里的曹丕说：“管杀，还得管埋”。

　　简单讲，数据是情报，是生产资料，AI 技术极度依赖数据。没有汽油，劳斯莱斯再昂贵也只能观赏，无法行驶。缺了数据，再先进的 AI 也只能人工，无法智能。

　　所以，法例的约束会贯穿 AI 产品整个生命周期。窒息的高墙下，只留“合规”这个窄门，门后是欧盟市场 5 亿发达人口。

　　欧洲高度注重隐私和数据保护，这是文化。

　　第二次世界大战期间，欧洲建立了详细完备的个人数据库。结果，被纳粹用来清洗犹太人和迫害反纳粹人士。

　　欧洲 600 万犹太人的冤魂不散，致使很多欧洲人终身坚信，无论是出于何种目的，个人信息到后来一定会被滥用。

　　耶路撒冷灰暗的混凝土墙壁、静默的白色马安石地面、英文和希伯来文悼词，没有人再去打扰这份宁静。

　　二战结束五十年后，GDPR 的亲大哥《95 指令》出生（1995 年）。2009 年，亲二哥《欧洲 Cookie 指令》出生。你别误以为 GDPR 是一个人在冲锋。不，这是一家子在战斗（Cookie 是互联网常用的用户跟踪和识别技术）。

　　程序员开玩笑会说：

　　“数据和女友不能分享。”

　　欧洲程序员再加一句话：

　　“这是法律规定。”

　　欧盟高管表态：“我们欧盟委员会（的人），并不反对来自大西洋彼岸的科技巨头，但是前提是，他们必须守规矩。”

　　美国互联网企业享受了全球化最好的一轮红利，俯仰之间，王公贵胄、皇亲国戚都难逃一考。

　　加试题目是：数据安全与用户隐私保护。

　　东边日出，西边雨。

　　TikTok 是 AI 技术领域的“贵族”，有着领先行业完整的现代化推荐系统（含推荐算法、训练平台、后端架构的推荐系统技术栈），建设有大规模分布式实时机器学习训练平台和分布式高性能 Parameter server 平台。

　　海量短视频数据，“化作”充足的生产资料，使 TikTok 有能力探索最新机器学习算法落地。

　　TikTok 在用 AI 算法改造自身业务的路上从来不迟到。甚至有外媒总结：“截至 2020 年，TikTok 已成为全球最受欢迎的应用程序之一（至少对于某些年龄以下的用户而言），其成功由一些世界上最先进的 AI 技术推动。”

　　一位曾经就职于小桨科技（产品，微叭 App）的视频推荐算法工程师告诉我：“推荐算法（的结果）要看留存率、点击率、活跃时长、播放时长，（公司）直接考核业务指标。不达标会被产品经理锤死。”

　　机器无电不休，算法日夜不眠，算法工程师在“拼命”，背后站着熬红了眼的产品经理。

　　AI 早已应用于挽回用户流失等功能。

　　产品经理一边唱着“爱我，别走……”，

　　一边伸出胳膊指挥：“再次对用户投放广告，精准挽留。”

　　“你的偏好，我知道。”用户每一次上翻、下滑、点赞，都是一份《产品改进意见书》，背后还有今日头条 AI lab 的支持。

　　AI 技术渗透的力量，摧枯拉朽。一个没有智能算法的 TikTok，已经不可想象。

　　东边日出，西边雨。

　　GDPR 的余音回响，欧洲版的营业执照，一照难求。

　　2020 年，当你打开 GDPR 认证的网站，可以看到许多站张熟悉的中国面孔，华为、小米、OPPO、美的、第四范式。OPPO 进军欧洲市场，其认证的产品种类之多，居然包括了计算器（Calculator）和钟表（Clock）。

　　李鸿章在给同治皇帝的奏折上写下，“三千年未有之大变局”。

　　变局已成定势，做好思想准备和工作准备。

　　美国已死，欧洲苟活，人工智能法外之地会一寸一寸消失。

　　来者，需要拥抱高墙、窄门。

　　拥抱合规、限制、约束。

　　拥抱枷锁、脚铐、铁链。

　　将思考的维度上升到管理与合规，渗透在技术思考之中，包括在框架之内，体现在解决方案里。而不是绕着它走。绕也绕不开。

　　这些，要看企业是否愿意付出额外努力。

　　第四范式创始人兼 CEO 戴文渊的答案是：我愿意。

　　戴文渊，总是讲话温和，语速平缓，但是一旦你给他抛出问题，就能感受到清晰、缜密的思考力。

　　他说：“从技术手段上讲，保护隐私和数据安全是有办法的。不是没有办法，而是说，想不想解决？愿意花多大的代价去解决？”戴文渊似乎没有对 GDPR 低头。

　　他轻描淡写地提了一句，“第四范式的先知平台，已经是国内首个通过 GDPR 认证 AI 平台”，这一句更是增添了上一句话的底气。

　　突然想起香港应用科学研究院的一位博士也说过类似的观点：“技术上翻越肯定是可以做到的，只是很多时候不愿做，或者懒得做。”

　　业界有一个声音：

　　机器学习是一个有难度的技术，是“难度一次方”。

　　机器学习想落地，变成“难度二次方”。

　　再解决隐私保护问题，这又是一个很有难度的问题，变成“难度三次方”。

　　解决这些技术问题，专家不是一般的专家，既要懂机器学习技术，又得懂隐私保护技术，还得懂业务。要求是非常高的。

　　用金庸的话说，练成易筋经，需体质强。练成乾坤大挪移，需内力高。练成独孤九剑，需资质慧。想成为攻克“难度三次方”的专家，需能运用多种武功入化境。南帝北丐很难批量培养。望眼整个武林，还好有一代宗师。

　　一代宗师可能会说：

　　“解决好隐私保护问题，看上去是一个技术问题，实际上是，人工智能的从业者要有一种思维的变革意识。将对文化、制度、法律等“社会因素”的思考融入代码、模型、架构、解决方案……”

　　第四范式主任科学家涂威威告诉我：

　　“隐私保护作为一个学术问题已经走了很长一段路了，较早之前的需求来源于企业自我保护。个人关心隐私，企业关心的是商业机密。”

　　涂威威用两句话概括了隐私保护技术的昨天，继而又谈起它的现在。

　　他总结到：

　　“隐私保护就是一个矛与盾相争的过程，大家都研究又会出现哪些新的攻击手段，又有什么方法可以保护。”

　　“隐私保护会涉及到非常多种类的技术，有底层的，也有最近几年才奠定起基础的。涉及的技术种类多，不是为了卖弄技艺，而是面对的情况复杂。”

　　拳守“数据安全”，脚护“隐私保护”。

　　易筋经、乾坤大挪移、独孤九剑，演变成“差分隐私算法”“安全多方计算”“自动多方机器学习技术”“联邦学习”。

　　当细数起这些“厉害的”技术，涂威威的语速加快，仿佛不需思考。

　　“根据不同场景，有时可能是允许数据出去的，可以通过加密的方式出去，运出去的过程中别人是没有办法知道的，因为是加密的，这里参考图灵奖获得者姚期智老师的思想，用安全多方计算。

　　有时可能是不允许数据出去，出去的只是一些统计结果或者模型，这里参考香港科技大学杨强教授的联邦学习技术。”

　　香港科技大学杨强教授曾说：

　　“联邦学习希望在不共享数据的前提下，利用双方的数据实现模型增长。”

　　他曾举例：

　　“假设A和B两家公司想要建立一个用户画像模型，其中部分用户是重合的。联邦学习的做法是，首先通过加密交换的手段，建立用户的识别符（identifier）找出共有的部分用户。

　　因为关键用户信息并没有得到交换，交换的只是共有的识别符。再将各自拥有的同样用户的不同特征输入，迭代地进行模型训练、参数交换。

　　我们证明了给定模型参数，双方不能互相反推出对方拥有的、自己没有的特征，因此用户隐私仍然得到了保护，双方的模型性能都得到了提高。”

　　姚期智院士、杨强教授……宗师们总有无上智慧。

　　“为什么第四范式会做隐私保护技术？”

　　涂威威的答案是：

　　“第四范式作为一家创业公司，初始做隐私保护技术是出于一群有理想的年轻人的前瞻性预判。一种来自技术本能的预判，数据孤岛迟早要打破，当打破发生之时，这个技术成为必备品，只靠‘解决信任’路途尚远。”

　　然而，现实的磨砺很快降临在向理想前进的路上。

　　涂威威说，我们的“一只脚”伸入到了金融，为什么是金融，因为金融的数据是最完备的，我们的技术是在数据之上做决策，必然选最完备的行业。

　　“一只脚”后，金融、医疗行业对隐私保护的需求推动了技术的另一轮发展。比如，第四范式经常参与银行竞标，《招标书》里，绝不会少了数据安全性条款。

　　涂威威在以往的《银行招标书》中划好了重点，并指给我看。

　　“隐私数据保护技术，苹果、谷歌都在用，谷歌早在 2016 年就提出了本地化差分隐私Local Differential Privacy)技术，并成熟应用在产品数据采集阶段，第四范式的优势在哪？”

　　涂威威越谈越从容，带压力的问题也难不倒他。

　　他说：

　　“第四范式也提出应用在机器学习模型上的差分隐私技术，我们将训练数据按特征切开，并分别去训练，按特征重要性来进行隐私预算的分配，重要的特征分配较少的隐私预算，不太重要的特征则分配较多的隐私预算，从而保证了在相同隐私保护的条件下，获得更加有效的分析结果。”

　　涂威威的回答，就好像准备了答案，细节中处处都有巧思，无法容下不满意的蛛丝马迹。

　　话声未落，他就在草稿纸上手写了一篇学术论文的题目《Privacy-preserving Stacking with Application to Cross-organizational Diabetes Prediction》。

　　论文只是在工业界解决问题时的“副产品”，他想把荣誉感写在产品上。

　　他介绍，在公司的算法实验室里完成工作后，其实还有两个重点，一个是自动化，一个是场景。

　　他谈道：

　　“隐私保护，如同加密，解密。暴露的中间过程越多，泄露隐私的可能性越大。比如，AutoML（自动机器学习）之所以能够减少隐私的泄露，其实就是减少了人触碰数据的机会，减少人去分析特征，减少人在各个环节泄露隐私的可能。让机器去完成中间的过程，最后输出结果。自动多方机器学习就是隐私保护的自动机器学习，中间的过程全部是自动化完成的。”

　　他的答案中，技术细节多，观点少，唯有这句：“算法的未来就是自动化，不能自动化的算法，剩下的路也不长了。”

　　余音未尽，尚在绕梁。

　　场景落地又是另一场硬仗。他压低声音说了一句：

　　“如果不是瑞金医院的瑞宁知糖项目（预测三年后患糖尿病的概率以及个性化的干预），医疗算法团队都要稳不住了。”

　　创新，有时候就是下了一步险棋。

　　涂威威和也和我讲了“作弊”的办法：

　　“从某种角度讲，成本最低、效率最高的方式是侵犯隐私。”

　　好比打扑克偷看别人手里的牌。如果全世界艾滋病药厂知道了患有艾滋病人的家庭住址，就不需要打广告了，直奔病人家，挨家挨户兜售不就完了。

　　广告费都省下了。

　　别人披荆斩棘，你通过践踏个体隐私直接抄了近路。

　　法律会让你一直痛快下去吗？

　　企业选择用技术保护隐私时，其实是选择了一条“刀光剑影”的路。说不定就会像涂威威一样，没有好的落地场景，变成“光杆”。

　　观察发现，不少企业也在“研制隐私保护的秘诀”。由于金融行业是数据界的富豪，联邦学习技术被用于中国首家互联网银行——微众银行。微众银行也在推动“联邦学习”的标准。

　　从某种意义上讲，这是一份全球领先的标准。联邦学习作为隐私保护的代表技术，并没有被欧美大厂垄断。

　　在隐私保护的江湖里，中国人工智能从业者并不甘心屈服于国外标准。

　　招商金科（招商银行下属金融科技公司）一位不愿意透露姓名的研发高管告诉我，他们也参与了“联邦学习”第二版标准的制定，但不便于接受采访。

　　“京东集团也在使用联邦学习保护数据隐私。”京东大数据研究院首席数据官刘晖告诉我。

　　东边日出，西边雨。

　　流量、广告、品牌……的老故事，已经翻篇。中国互联网企业想变成全球互联网企业，光靠突破 Facebook、Google、Amazon 的防线，已经不够了。企业的战场向四面八方延伸，“法外之地”正在消失。

　　在别人看来绝望的事情，“创新者”与“创造者”总能从中找到希望。

消失的人工智能 “法外之地”

Published by

风君子

发表回复取消回复

Published by

风君子

发表回复 取消回复

发表回复取消回复