「表面光鲜,实则搬砖」,机器学习社区自嘲不为人知的AI工程师真相

  贾浩楠发自凹非寺

  量子位报道公众号 QbitAI

  机器学习工程师岗位,还香吗?

  在培训机构或求职网站随便一搜,机器学习简直不要更热。

  但是,国外的同行们却在一则 Reddit 热帖上,吐槽揭露 ML 工程师“表面光鲜,实际搬砖”的一面。

  说出了培训机构不会告诉你的机器学习业内真相。

  那这些“过来人”怎么掉进一个个暗坑的?他们的经历对你有什么警醒借鉴的意义呢?

  机器学习岗,怎样避免沦为数据标注师

  Reddit 热帖下,网友们吐槽最多的,就是学习和工作的巨大差距产生的幻灭感

  学了一大堆牛X高大上的理论知识,以为自己能上手酷炫的神经网络,调参、训练、部署一条龙,但实际上,这些内容大概只占全部工作的 10%-20%。

  而且在一些团队中,会有专门的岗位来负责这些工作。

  其余大部分人的职责是收集数据、给数据打标签、处理数据质量,或者用 Python 写基础架构。

  当年梦中的那个引领 AI 潮流的少年,就这样成了数据标注师。

  但是,网友也承认这一点确实是业内的普遍现象。而且,刚刚工作的新手,从低层技术开始做起,也是符合常理的。

  大家的建议是:面对这种大量重复劳动,先别急着上手,去查一查资料,很多类似工作已经有成熟快速的方法。

  当你跨过了基础工作这一关,要面对的,是 ML 项目中可能出现的各种令人头疼的问题,而这,是考验你能否成为优秀机器学习工程师的重要挑战。

  机器学习之路布满荆棘

  哪些在工作岗位上很重要的东西,是机器学习教程不会教你的?

  网友们总结了最重要的 4 条:

正确认识业务
处理凌乱的现实世界数据集
工程导向,而不是在 Jupyter Notebooks 中编写研究代码
可视化

  这些都是网友们在工作经历中吃了很多亏后,总结出的经验。

  比如,很多 ML 工程师只有给定一个抽象化的问题才能上手,缺乏应对实际工程问题的能力。

  而一个合格的、被业内广范认可的机器学习工程师,他可能并不精通算法的数学原理,而是能够在约束条件众多的实际情况下应用算法解决问题。

  比如,在很多情况下,普通的旧算法(例如K-Means,高斯混合的 EM 等)非常有用。烧 GPU 并不是唯一办法

  避免纸上谈兵,这是机器学习算法工程师正确认识业务的一部分,除此之外,重要的点还有合理的工期规划,和良好的沟通能力。

  规划传统工程项目时,设定里程碑、期望值、是(相对)简单的。

  但对于机器学习项目来说,在最初目标和前期阶段之后,很难给出具体的计划,因为变数实在太多了。

  这就需要在项目初期阶段就保持头脑清醒,不要给自己挖坑,同时也要和 boss 以及同事说明沟通。

  一位网友谈到了切身体会。他放弃了机器学习算法岗位,原因是老板根本不关心他为了完善算法细节付出了多少艰苦的劳动,只看最后的可视化效果。

  当 boss 发现可视化效果并不高级时,认为他一直在浪费时间没好好工作。

  所以,比其他软件工程师更强的抗错能力,也是你必备的。

  如果你能抗过以上所有挫折和困难,还有艰难的一关要过。

  机器学习业内的谎言

任何人都可以轻松成为数据科学家/机器学习工程师
软件工程师可以轻松成为数据科学家。
学习应用“现成库”就可以轻松上手搞 AI。
搞 AI 无需学习高等数学/统计学
一种特定算法可以应用于任何领域并获得成功

  这些,就是 Reddit 网友当年少不更事是信过“鬼话”、踩过的坑。

  那么,真下决心走机器学习这条路,应该相信什么呢?

  首先是要对行业现状有大致了解。

  对于普通开发来说,机器学习岗位数量要比其他开发岗少很多。网友反映,在北美地区,100-150 个后端开发的公司可能只有有2-5 个搞 AI 的人。

  其次,是很多有 AI 需求的公司没有必要的 GPU 等基础设施,你去了才发现只能使用免费的 Collab。

  从个人求职角度讲,ML 项目大多很比较专,比较小众。你之前的项目经验,全国可能只有不多的几家公司感兴趣。

  明白了这些,你还要清楚怎样正确地踏入机器学习的门。

  多数有 AI 需求的公司,要求的是后端 +DevOps+AI+ 前端这样的一体化岗位。这就需要你的全栈能力。

  编写,测试,部署,在生产中跟踪模型、构建大规模数据是一个竞争力出众的机器学习工程师必备的。

  而这些能力的基础要求,就是数学。

  你当然不需要像搞科研那样精通数学。但扎实的高数、概率论、统计学基础必不可少。

  对于有些培训课程打出的所谓不要求任何基础就上手 AI 的,Reddit 网友直接说:“没有数学基础和过往编程经验的人,写出的代码是十分可怕的。”

  大牛不仅仅止步于机器学习

  当然,数学基础再好,代码写得再漂亮,也只是一个优秀的机器学习工程师。

  真正的大佬,是不会止步于此的。

  一位现在在搞神经科学的网友给出了独到的建议:

  如果想做真正创新,有趣的工作,那么仅凭机器学习知识是不够的。还需要其他专业知识。

  在特定环境中,清楚需要用那种 ML 算法来结解决问题,并且能高效处理数据,这样才能让你做出行业内独树一帜的先进成果。

  以上就是 Reddit 机器学习社区的“过来人”给大家的忠告。

  参考链接&传送门

  Reddit 热议贴

  https://www.reddit.com/r/MachineLearning/comments/ifn7ua/d_what_are_the_untold_truths_of_being_a_machine/

  Reddit 网友推荐:2021 年最有价值的 10 本机器学习书

  https://www.machineelearning.com/top-10-machine-learning-books-in-2021/

Published by

风君子

独自遨游何稽首 揭天掀地慰生平

发表回复

您的邮箱地址不会被公开。 必填项已用 * 标注