PyTorch 大牛 Horace He 突然官宣,加盟 Thinking Machines。
「在 Meta,离职时发布一张工牌照片是一种传统。遗憾的是,我找不到我的正式工牌了,所以只能用临时工牌代替」
毕业后,在 Meta 的 PyTorch 工作 4 年后,Horace He 终于决定换一种职业,探索一些新的事物。
在最新博客文章中,他解释了关于离职 PyTorch,以及加盟 TM 的两大原因:
-
为什么在 PyTorch 待了 4 年?
-
为什么 Thinking Machines 对其如此有吸引力?
全文链接:https://www.thonking.ai/p/why-pytorch-is-an-amazing-place-to
前 OpenAI CTO,Thinking Machines 创始人 Mira Murati 第一时间发文,很激动能够一起共事。
斯坦福 AI 实验室教授表示,「Horace He 的离职对 Meta 来说,是一个巨大的损失」。
PyTorch 之父 Soumith Chintala 更是给予了高度评价:
你对 PyTorch 的贡献,以及间接对 AI 世界的影响,将永远被低估,甚至可能在几年后就被抹去(就像历史记录常常会发生的那样)。
所以,我想郑重地说:这对 PyTorch 项目来说是一个巨大的损失。如果没有你,PyTorch 过渡到编译模式,以及在生成式 AI 浪潮中保持竞争力将会难上无数倍。
那么,如此厉害的大牛,为何离职加盟 Thinking Machines?
OpenAI、SSI 硅谷大厂为他争破头
坦白说,这件事不太好开口。
在 PyTorch 工作了大约 4 年后,我决定离开 PyTorch,加入 Thinking Machines 担任创始团队工程师。
这里,我想特别强调的是「加入 Thinking Machines 担任创始团队工程师」,而不是「离开 PyTorch」。因为我一直(并将继续)很享受在 PyTorch 的工作,并且我也很乐意再待上 4 年。
在过去几年里,有几次当我跟人聊天时,对方都对我仍在 PyTorch 工作表示惊讶。
这不是要自夸,但这也绝对不是因为缺少机会 —— 我曾收到 OpenAI、Anthropic 的职位邀请,也被 xAI、SSI、Adept、Inflection 等公司招募为创始工程师,还拿到许多其他你可能熟知的初创公司的职位邀请。
现在回头看,这些机会中的许多本可能带来更丰厚的报酬,但我从未后悔留在 PyTorch。
接下来,我想分享为什么我享受在 PyTorch 工作的这 4 年,以及是什么促使我决定加入 Thinking Machines。
PyTorch 这四年,很享受
与 PyTorch 的缘分
我觉得,称自己为 AI 的「忠实信徒」,应该很恰当。
自从高中时看到 AlphaGo 比赛,并读了 WaitButWhy 关于 AI 的文章(虽然十年后再看未必经得起推敲),我就坚信 AI 将是我一生中最重要的技术。
相应地,从 2016 年进入大学起,我所做的大部分事情都与 AI 相关。
选修机器学习课程、创建一个本科生机器学习研究社团、发表论文,甚至连女朋友(现在已经是未婚妻)也是在一起做机器学习研究时认识的。
然而,单纯做机器学习研究,有几点让我感到不尽如人意。
首先,虽然我发表了论文等成果,但即使在当时,我也不太确定我所做的研究是否真的「有意义」。
研究中一个令人沮丧的现实是,回顾历史,99% 的论文最终都不会成为真正推动 AI 进步「主流发展方向」上的一部分。
从悲观角度看,任何花时间研究 n-gram 模型的博士基本上都是在浪费时间 —— 他们的论文和论著最终都被历史所遗忘。
虽然即使不在主流方向上的论文仍然可能有价值(比如展示现有方法的局限性,为新方法提供可超越的基准),但这个疑虑一直萦绕在我心头。
其次,我从未能很好地适应机器学习中那种「实验驱动」的工作模式 —— 我的工作风格比较不规律,时而深度思考,时而集中编码。
而成为一名优秀的机器学习实验者需要极强的自律性 —— 这是一个不断循环的过程:提出假设 => 运行实验 => 获取上一个实验的结果 => 提出新的假设,通常还要同时管理多个实验阶段。
在机器学习研究中,你面临着物理资源限制(GPU),要成为一个好的研究者,你必须学会充分利用 GPU 资源进行实验。
总的来说,我最终更倾向于「系统」领域。这不仅是一个我认为能发挥自己优势的方向,我也一直很欣赏系统工作的影响力。
与其直接产生影响,不如通过提升成千上万甚至数百万人 5% 的工作效率来间接创造更大的价值!
就这样,我找到了自己的职业定位 —— 不是直接投身于推动机器学习技术的发展,而是专注于构建基础架构,帮助其他人加速机器学习领域的创新。
当然,中间经历了不少波折,但这就是我最终与 PyTorch 结缘的故事。
PyTorch 对行业的影响力
随着这个领域(还有资金)在过去 10 年的爆炸式增长,我觉得人们很容易忽略 PyTorch 究竟产生了多么深远的影响。
或许追踪这个领域资金流向最直观的指标就是英伟达的股价了,它主要受服务器 GPU 销售增长的推动。
我认为可以合理推测,至少 75% 的这些 GPU 都在运行某种形式的 PyTorch 代码。
这简直令人难以置信。英伟达增长了约 3 万亿美元的市值,而 PyTorch 在这一成就中功不可没。
不仅如此,在整个机器学习社区中,PyTorch 依然是大家的「通用语言」。
Papers With Code 追踪的研究论文中有 59% 使用 PyTorch(另有 29% 不使用任何机器学习框架),Huggingface 平台上绝大多数模型(超过 90%?)都构建在 PyTorch 之上,最受欢迎的推理服务器如 vllm 和 sglang 也都是基于 PyTorch 开发的。
即使在顶尖 AI 实验室中,几乎所有使用 GPU 的公司都在用 PyTorch。OpenAI、Mistral、Deepseek 和 Meta 主要使用 PyTorch(和 GPU)。Anthropic 也主要在 GPU 上使用 PyTorch,而 xAI(虽然在 GPU 训练上使用 Jax)也通过 sglang 使用 PyTorch 进行推理!
在高中时期,我最担心的事情之一就是自己会花上 10 年时间投入某个项目,最后却发现我浪费了大好时光去完善一个无人问津的东西。
而在 PyTorch 工作的最大幸运之一,就是我确信自己绝对没有做这样的无用功。
PyTorch 对我的影响
我的整个职业生涯(到目前为止)都在 PyTorch 度过,所以,除了 PyTorch 的整体影响外,我想聊聊为什么我如此享受这里的日常工作。
-
目标共识
创业公司最棒的事情之一是「目标共识」。因为你的大部分薪酬都与股票升值挂钩,所以「我的同事大获成功」和「我们所有人都大获成功」其实是一回事。
而在大型科技公司,人们的薪酬主要与个人绩效评分(和晋升)挂钩。因此,如果你开始研究一种方法,而其他人提出了一种不同的、非常成功的方法(并取代了你的方法),你的绩效评分很可能会下滑,晋升机会也会随之渺茫。
然而在 PyTorch,项目中的许多人都有着共同的使命感 —— 他们真心在乎 PyTorch 的整体成功及其对机器学习生态系统的影响。
我当然不会说团队中 100% 的人都是如此,但已经足够多(尤其是在资深人士中),这让工作体验变得更加愉快。
-
真正致力于开源
Soumith(和其他领导层)在 PyTorch 营造重视开源的文化氛围方面做得非常出色。
还有许多其他恰好是开源的项目,但你通常只能通过优先考虑内部项目来获得晋升和影响力。
在 PyTorch 不是这样,我可以说我在这里的全部时间主要专注于开源影响力,而且我在评级和晋升方面都很成功。(当然,也有其他主要关注内部影响的同事同样非常成功)。
在其他方面,重视开源也会让整个项目更加健康。
-
不可操控的影响力
在大型科技公司中,我不太喜欢的一种现象是我称之为「规划导向的采用模式」。这是指两位经理 / 主管 / 副总裁聚在一起,同意应该使用 X 项目(可能会淘汰 Y 项目),然后项目的采用被列入几个团队的规划路线中。
虽然这当然有其优势(在某些情况下甚至是完全必要的),但我发现以这种方式采用的项目往往差强人意。
此外,这些项目的成功常常是一种虚假繁荣 – 只要有某位副总裁赞助项目,它们就会继续存在,但最终人们会厌倦它,副总裁会在内部博弈中失势,或者副总裁只是改变了主意。基本上,在规划导向的开发中,最重要的环节是说服一些「关键决策者」采用你的项目。
另一方面,开源世界是真正的自由市场。开源用户根本不在乎扎克伯格是否全力支持某个项目。
开源用户只关心两点:1. 你是否解决了他们面临的问题,2. 他们是否喜欢使用你的软件。
Mike Schroepfer(Meta 前首席技术官)也表达了类似的观点。我甚至无法想象作为一名首席技术官获得「真实」反馈有多难,因为你交谈的每个人都知道你可以单独决定他们的晋升或奖金。
而开源世界提供的是一种令人耳目一新的、不可操纵的真实反馈。
-
有趣的技术工作
许多工程师的一个担忧是他们无法解决有趣的技术问题 —— 在 PyTorch 上这方面绝不缺乏。
有些项目实现了用于机器学习的 Python 字节码解释器 JIT(如 TorchDynamo),有些项目致力于达到矩阵乘法的光速性能,有些项目需要你经常深入研究 PTX 文档,有些项目全是关于符号形状的推理(sympy、z3 等),还有很多很多。
这里要解决的问题还有很多。这里,大家可以考虑加入 PyTorch 团队。
加入 Thinking Machines,这 4 点足矣
既然我刚刚写了太多关于我为什么喜欢在 PyTorch 工作的内容,那么为什么我会加入 Thinking Machines?
更重要的是,为什么 Thinking Machines 是那个最终说服我的机会?
一群我非常想与之共事的人
众所周知,没有优秀的人才,创业公司什么都不是。而 Thinking Machines 确实拥有一些非常优秀的人才!
比如,有当初发布「研究预览版」的研究员 John Schulman、Barrett Zoph、Luke Metz,有在 Meta、OpenAI、Character.AI 等公司领导预训练工作的专家,还有在 OpenAI / Mistral 领导多模态工作的人才,以及有极其出色的基础设施工程师。
当然还有世界上最大 AI 公司 OpenAI 前 CTO(以及短暂担任过 CEO 的)Mira Murati。
然而,或许比团队的实力更让我印象深刻的是,团队的友好氛围。
一个惊人,且不对称的机会
作为一家创业公司的创始工程师,一个不公平的优势是,机会成本的不对称性。
例如,如果我以创始工程师的身份加入 Thinking Machines,然后一年后发现自己判断失误,转去另一个实验室,我的职业角色可能不会有太大变化!
我仍然可以加入一家已经成立的公司,而且职位可能与今天相当相似。
然而,如果我现在拒绝但一年后再加入 Thinking Machines,我的角色将会大不相同。
当然,不只是薪酬的变化,但更重要的是,我的话语权和影响力将会大打折扣。一家公司的文化和方向主要由创始团队确定,而这是我在 OpenAI 或 Anthropic 没有机会获得的。
一种与我产生共鸣的积极 AI 成果的方法
然而,也许最重要的是,Thinking Machines 追求积极 AI 成果的方法 —— 研究与产品共同设计以及开放科学 —— 与我产生了共鸣。
如上所述,自高中以来,我就确信 AI 将是我们这一生中最重要的技术。然而,这并不等同于说它必然会带来最大的益处。
总的来说,我认为自己是一个技术乐观派。
也就是说,我相信人类的生活在过去 1000 年里有了极大的改善,而这主要是由技术创新推动的。
在很多方面,AI 是世界上有史以来最具技术加速主义特性的技术 —— 一项有潜力解决我们面临的所有其他技术挑战的单一技术。
正因如此,AI 的潜在积极影响值得我们去追求。
当然,不良后果也是可能发生的,而且由于 AI 的潜在影响,不良后果似乎比其他技术带来的风险更为严重。
总的来说,我将 AI 的不良后果分为以下几类:
-
滥用:坏人利用 AI 做坏事
-
错位:好人使用 AI,但 AI 本身最终做了坏事
-
社会影响:人是好的,AI 是好的,但我们最终还是得到了不好的结果(最担忧的一点)
这样认为的主要原因是,社会自然对错位和滥用有强烈的「免疫反应」。当涉及到潜在有害的技术时,社会有一个明确的应对方案 —— 如果发生了坏事,就增加限制(比如监管 GPU)或法规(比如强制进行更多的安全监督)。
当然,AI 不是一种普通的技术,但具体来说,我认为在真正灾难性的滥用或错位发生之前,会有很多警告信号。
即使 AI 在错位之前隐忍不发(例如,欺骗性错位或背叛性转变),我认为第一个这样做的 AI 系统不太可能成功 —— 它需要比人类和其他 AI 强大得多。
另一方面,负面社会影响似乎更加直接可信。即使现在,顶级 AI 实验室的保密性确实让我感到不舒服(虽然我理解为什么要这样做)—— 我实在受不了那些故弄玄虚、含糊其辞的言论了。
此外,AI 知识在意识形态和地理上的集中似乎并不理想 —— 随着 AI 专业知识变得越来越受欢迎,绝大多数 AI 秘密都集中在旧金山周围 50 英里的半径内,这导致了权力不平衡和单一文化。
如果我们需要使 AI 与人类价值观保持一致,那么所有这些人都应该住在旧金山吗?
为什么我被 Thinking Machines 的使命所吸引
广义上讲,Thinking Machines 的使命有两个主要方面吸引了我。
1. 专注于产品和广泛的 AI 扩散
在我看来,更广泛的社会稳定性的最重要方面之一是社会向使用 AI 系统过渡的平稳程度。与结果同样重要的是人们如何感受我们达到这个结果的过程。
例如,ChatGPT 并没有真正让许多机器学习研究人员感到震惊 —— 他们已经见过 GPT-3,他们已经见过 GPT-3 提示词能做什么,ChatGPT 只是一个便利功能。
然而,ChatGPT 绝对让社会其他人感到震惊。这是更广泛的社会第一次意识到最先进的大语言模型可以做的所有事情,社会对此感到震惊。然而,自那以后,ChatGPT 在更广泛的社会中变得更加常态化 —— 人们有点像经历了「享乐适应」(人们对新事物的兴奋感会随时间逐渐减弱)。
但是,还有更多可以做的事情。即使在今天,第一次接触 ChatGPT 的普通人与那些已经将 AI 深度整合到工作流程中的人之间仍然存在巨大差距。
此外,我相信构建能够协助人们合作而非完全自主的 AI 智能体的产品有很大潜力。我想到的一个有趣的方式是「最大化劳动力而非资本的价值」。
2. 开放科学和系统
如上所述,对社会来说,这些 AI 系统的构建知识如此保密似乎并不是好事。这不仅会引起人们对这些 AI 实验室的不满,还会使社会更难在这些 AI 系统的基础上进行创新和发展!
例如,Deepseek 最近发布的论文和代码帮助更广泛的社区更好地理解未来什么技术会有用(比如 Online RL)。
就我个人而言,这也是我当初投身 PyTorch 项目的重要动力之一。优质的开源系统有助于整个生态系统的发展,能让更多人参与到 AI 系统的构建中来。
我还想指出,虽然开放科学 / 系统当然是一个很好的理想,但现实中也存在经济因素的考量。
在我看来,这正是专注于产品开发的价值所在。像 Meta 或谷歌这样的公司不需要对他们使用的实际技术高度保密 —— 基本上,他们的大多数核心系统和方法社区都已经广泛了解。另一方面,如果你的产品仅仅是一个输入 token 和输出 token 的 API 接口,那么你唯一的优势就是你的模型的具体能力。
公司的文化和默认做法也极其重要。这些 AI 实验室有很多东西可以开源而不影响他们的竞争优势 —— 他们之所以不这样做,只是因为他们的默认做法是闭源,而要改变这一点,他们需要论证为什么某些东西应该开放。
相比之下,PyTorch 在这方面采取了相反的做法。我们所有的代码都是开源的,我们的路线图是公开的,我们的一些设计会议也是公开的。因此,如果你不希望某样东西是开放的,你必须论证为什么它应该是闭源的。
正如奥尔特曼所言,他认为 OpenAI 应该开源更多东西。然而,这不是当前最高优先级。
关于积极 AI 结果的总体思考
总的来说,我认为 Thinking Machines 关于广泛 AI 扩散和协作开放科学的使命,是一个很有说服力的策略,能够有效应对 AI 带来的社会影响问题。
当然,还有其他必要的方法(比如政策制定),但 Thinking Machines 的使命与我个人价值观高度契合,也是我认为自己能够做出贡献的领域。
最终想法
作为创始工程师加入 Thinking Machines 的机会几乎满足了我所有的期待条件。
-
一个实力雄厚的团队,既有我之前就很享受共事的伙伴,也有其他我认为会愉快合作的人才。
-
能够从一开始就参与并对一家极具发展潜力的公司的方向和文化发表意见。
-
一个对我来说独特且富有吸引力的使命(产品专注 + 开放科学),有望带来更好的 AI 发展成果。
-
最后,从感性角度来说,开放科学和系统这一方面让我能够继续做我在 PyTorch 工作中最喜欢的事情 —— 与人们讨论 AI 系统并通过开源代码产生广泛影响。
-
https://x.com/cHHillee/status/1896973303241400704
-
https://www.thonking.ai/p/why-pytorch-is-an-amazing-place-to
我之前遇到的机会几乎没有一个能同时满足这些条件中的两个,更不用说全部四个了。
当考虑这个机会时,我清楚地记得自己想,「如果连这个机会都不能让我离开 PyTorch,那我可能会永远在 PyTorch 工作下去」。
尽管这是一个非常艰难的决定,但我非常期待能在 Thinking Machines 构建一些很酷的项目!
参考资料:
本文来自微信公众号:新智元(ID:AI_era),原标题《PyTorch 灵魂人物出走,被 Ilya 奥特曼抢破头!放弃大厂 offer,却选择了 ChatGPT 之母》