国产大模型背后差距有多大？百度马艳军：一看效果、二看性价比

7月31日，中国信息通信研究院知识产权与创新发展中心发布了《中国人工智能产业创新人才竞争力报告（2023年）》，百度在7大领域（预训练大模型、深度学习、自然语言处理、知识图谱，智能语音、计算机视觉、自动驾驶）均排名第一，紧随其后的是腾讯、华为、商汤等大厂和高校。

据百度集团专利事务部总经理崔玲玲透露，在深度学习层面，百度深度学习相关发明专利超过5000件，发明授权专利量超过1300件，近三年的申请量占到总申请量84%以上。在知识图谱层面，百度公司知识图谱团队发明专利申请量1500件，发明授权专利量约580件，近三年的申请量占到总申请量60.9%。

媒体群访环节中，百度AI技术生态总经理马艳军表示，“未来大模型产品的壁垒有多高，将集中体现在两个方面，一是感知上效果明显更好，二是同样效果下谁的性价比更高。”

一、国产大模型背后差距有多大？

提问：百模大战下，国内众多大厂和创业公司都相继推出大模型产品，彼此之间差距究竟体现在哪里？

马艳军：如果大家去试用的话，有的效果是60、70分，有的只有30、40分，对比下来感知会比较明显。很多情况下大家感知不到太大差别，其实是因为平时没有接受过具体训练，提问方式大同小异，如果提问方式经过训练产生一些变化，其实大模型产品之间的差距，能够很直观的感受得到。

提问：未来，大模型产品要如何建造更高壁垒？

马艳军：在我看来，未来大模型产品的壁垒有多高，将集中体现在两个方面，一是感知上效果明显更好，未来我们或许可以看到有的产品效果一直提不上来，其实是比较明显的。

二是同样效果下谁的性价比更高，性价比高这个事情如果要建立起壁垒，其实就很依赖一些底层的功能目标，底层软件框架层的技术能力，才能把这样的壁垒建起来，这样的壁垒其实也是比较高的。

提问：通用大模型如果要服务千行百业，需要更多垂直方向的专业内容和真实数据，甚至有一天一些科学家、博士生也能通过文心一言获得研究选题的启发。目前，百度在中英论文等专业知识获取方面，取得了怎样的进展？

马艳军：确实是这样，科学领域的论文知识数据，对于大模型本身的质量和效果肯定是影响非常巨大的，因为这些论文其实代表了人类最高水平的语言和背后的逻辑，科学论文其实是极有逻辑性的，甚至很多物理化学数学本身就是公式，它就是个逻辑，这些知识真正加到大语言模型里面，都能够带来很好的提升。

能够把这样的科学论文无国界的更好分享，并能够在训练过程当中大家都能得到一些东西，如果能有这种机制是非常好的。当然，我们现在制作大模型的过程中，也在持续去积累这样的数据，但客观来讲，国内真正要把这些东西都做得特别好，甚至把全球的英文论文都弄好，其实还有一段路要走。

二、大模型技术人才如何培养？

提问：人工智能的发展会导致程序员失业吗？

马艳军：对于程序员行业，我确实觉得影响会比较大。但也有不同，对于能够开发百度飞桨框架这类程序员，我觉得暂时还没有影响，因为确实太难开发了，而且稀缺性很强。但是如果你从事的是上层软件开发，这个东西越好开发，标准化成都越高，大家都可以粘贴复制一些代码写出来，也就是重复性很强的工作，那么肯定会更快、更容易被替换。

提问：新版文心一言能力已超ChatGPT 3.5，在你看来百度能实现这个超越，核心原因是什么？

马艳军：从里面的技术来说，确实需要的是人才，这是非常关键的支撑性因素。大家知道大语言模型的核心还是语言的分析和处理，所以对于自然语言处理有没有长期的积累和认知，就变得特别关键。自然语言处理的核心算法，尤其是跟深度学习结合的自然语言处理的核心算法，拥有这样背景的人才，就变得格外紧缺。百度之前在这方面就有很深的积累，本身工作内容就是大量的自然语言处理，一直以来在这个领域就有很强的资源，积累了一批这样的人才。

提问：国内正面临着大模型人才缺口问题？

马艳军：这批人才其实很少。为什么会少？原因是他们研究的方向太底层了，之前是天天坐冷板凳型的，很少有人选择这个方向。同时，研发大模型还要求这种人才，具备很强的工程化思维能力，工程开发能力要特别强，同时具备这些能力的人才本就稀缺，想要聚这么一拨人就更不容易了。

提问：文心大模型在产业端最新的进展是怎样的？

马艳军：目前有15万家企业申请接入文心一言测试。百度智能云与300多家生态伙伴，在超过400个场景中已取得相当不错的测试效果。（一橙）

国产大模型背后差距有多大？百度马艳军：一看效果、二看性价比

Published by

风君子

发表回复取消回复

Published by

风君子

发表回复 取消回复

发表回复取消回复