人美声甜 GPT,数学题哪里不会讲哪里

大模型的颠覆和变革,还只是开始。

ChatGPT 一炮而红,重塑搜索、办公协同等多个场景和行业后,在线教育,被视为最重要的垂直场景 —— 毕竟大语言模型展示出的能力,正是之前在线教育、AI 老师所亟需的。

而且这种趋势已经开始,背靠大模型相关的在线教育应用,已经率先在海外火爆。

看过来!让 GPT 化身二次元美少女 AI 家教来讲数学题的方案,每步都有解法,再不用担心看见参考答案的“略”字:

基础到某个三角函数的定义,复杂到不同的解题方法与技巧,都能得到答案:

这就是最近在海外火爆的 AI 解题类应用,背后 App 已经在 App store 商店教育分类板块刷榜。

这种火爆在情理之中:背靠 LLM,加上二次元画风颇似《原神》—— 不得不说,真实拿捏住了流量密码。

在这之前,在线教育行业的主流“AI 家教”,背后的本质只是推荐算法,换句话说,就是推荐录好的教学视频或解题方法,但无法针对视频和方法中的某些细节给出解答

而现在,LLM 涌现的解题准确性和语言理解能力,开始对之前可望不可即的技术实现带来了突破 —— 不是在线教育面临重塑,是整个教育产业正在面临重塑。

背后技术原理:GPT + 在线教育 =?

二次元美少女家教身后,就是 LLM 在 AI 自动解题方面发挥着作用。

基本思路是在原有流程的一头一尾,接入 LLM,与原有流程中的 CLM(可计算语言模型,Computational Language Model)形成 Joint Model 模式。

CLM,相比其他 AI 模型展现出不错的逻辑能力,不过它在语言理解能力和输出等方面,遇上如今包括 GPT-4 在内的大语言模型还是相形见绌。

Joint Model 模式,就是让 LLM 提供 NLP 能力CLM 提供逻辑推理能力

也就是说,现在的整个 AI 解题的过程是这样的:

题干输入 ——LLM 处理文本 ——CLM 解题 ——LLM 形成文本 —— 讲解输出

二者结合,能完成的推理任务比单个模型处理的更复杂,并在必要时收集相关数据。

由是,AI 家教能很好地理解题干内容,从而提供讲解。

在两端接入 LLM 之前,这条 AI 解题流程也能利用 CLM,提供 AI 家教所需的数理逻辑和推理能力。

主要依靠 CLM 对文本信息进行数据升维,把一维文字信息进行高维展开,让机器在同一时间接受文本背后诸如实体、关系、参数、知识等多维度的隐含信息,理解题干背后最终想要求解的东西是什么。

再对 CLM 进行“部分不召回”设定,即“不能保证 100% 做对的题,AI 不会输出结果”,从而保证 AI 家教的讲解和最终答案一定正确

这也能解释为什么现在的 Joint Model 模式中,对 LLM 的应用重点在 NLP 领域,而非逻辑和推理能力上 ——

GPT-3.5 起,大模型毫无征兆地涌现出数理逻辑和推理能力,但它们既不稳定,也不绝对可靠,AI 家教无法在接入后直接落地使用。

与其执着于纠正 LLM 的“胡说八道”,不如转而重点利用它相对稳定发挥的 NLP 能力。

二次元美少女 AI 家教背后是谁

有意思的是,这位 AI 家教背后还是一家中国公司。

来自悉之智能,2017 年成立,核心创始团队都来自清北。

创始人兼 CEO 孙一乔,清华大学电子系 2017 届学生,在校期间参与搭建清华 XLP 超限学习团队,并深度参与校内某院系课程体系深度改革,带领数十人搭建了清华大学首个自适应学习引擎。

联合创始人兼 CPO 代佩霖,北京大学金融系毕业,曾入选福布斯亚洲 30 under30;算法合伙人林东生,也毕业于清华大学电子系,是悉之智能自研 CLM 背后的发明者之一。

几位合伙从一开始杀入 AI 教育行业,就主攻自动解题

入局之初,还算赶上了个好时候,加上是国内第一家做出多模态解题家教的公司,成立次年就拿下新东方旗下“东方新创” 的 1000 万元天使轮融资。等到 2020 年,公司已完成近亿元 A 轮融资。

直到 2021 年经历双减风暴……

好在双减来临的同月,仍然顺利拿到 2000 万美金的 A + 轮融资,投资方是启明、经纬和真格等一线 VC。

但是,公司业务重心不得不开始向海外市场转移。

等到在新的市场站稳脚跟开拓市场,涌现逻辑能力的 ChatGPT 却突然现世,突破了业界的传统认知,也打乱了他们的阵脚:

我们原本以为 AI 不会这么快出现逻辑能力。

不仅低估了 OpenAI 在 GPT 系列上的进度,还低估了 GPT 涌现出的能力的强度。

早些时候,谷歌用一个 36B 的 LaTeX 数据集 Fine-tuning PaLM540B,在 MATH 上取得了 50 分。同一测试集上选出 CLM 覆盖的高中数学部分,悉之智得分在 70 分左右。

“比谷歌最引以为傲的 PaLM 得分高,也高于市场上的 Photomath 等产品,包括 ChatGPT3.5 最开始的解题能力得分也低于我们。”孙一乔边笑着复盘边挥舞胳膊,外化他的兴奋。

结果 GPT-4 光速出现,出场即碾压所有玩家的解题能力。

但他好像并不沮丧,“这一波就是全世界看 OpenAI 装逼嘛,惊得谷歌的下巴都掉下来了”。孙一乔的逻辑里,OpenAI 虐了全世界,悉之智能的 AI 又能虐其他人,“没什么不值得骄傲的。”

他还笑着补充,自家 AI 能力也不是为了刷榜好看,主要是能落到教育 AI 行业应用,这才是“至关重要”。

孙一乔很爱笑,熟悉他的人都这么说,尤其是在谈到 GPT 系列对传统带来颠覆性影响和可能性的时候。

3 月底,欧盟批准谷歌收购了我们在国际市场上最大的竞争对手,也是传统解题公司的代表 ——PhotoMath。

每每提到这点,孙一乔都嘴角上扬,难掩兴奋,要埋下头用双手捂脸数秒来平复心情。

PhotoMath 纳入谷歌麾下,有了技术、资金靠山,也代表着 PhotoMath 的一条快读通道被封死了 —— 这家数学应用程序公司接入 GPT-4 及后续 GPT 系列 API 的可能性几乎为零。

但是 GPT 和 CLM 的组合,可以让解题能力继续突破。

这也是孙一乔“不沮丧”的数据支撑。在一个 GPT-4 解题率为 82% 的测试集上,悉之最新 fine-tuning GPT 的 Joint Model 最新解题率在 92%。

究其原因,他的解释是 Joint Model 天然包含大量解耦好的 NLP 任务,最新工作中,团队把之前基于 Bert 的 CLM 换为 fine-tuning 后的 GPT,将 GPT 作为预训练模型,将 CLM 作为逻辑校验模型,继续提高解题上限。

孙一乔还表示,LLM 不只提升 AI 家教背后模型的 NLP 能力,对多模态交互也有不少帮助

现在的 AI 家教形象,比以前声音更好听,形象也更好看。在接下来的计划中,对话交互能力也将得到增强,在授课过程中随时提问,都能得到 AI 家教的解答。

计划中,旗下 AI 家教还会拓展数学之外的学科版图,也将开启新一轮的融资。

深陷双减风暴之后,教育底色的公司们都逐渐找到了新的打法。

改弦更张的,如新东方,在直播领域大杀四方;继续探索在线教育之路的,悉之智能利用 LLM 提升解题能力,优化多模态交互,据悉,猿辅导也已经用 AIGC 在传统教育领域寻找新的机会。

LLM 能力应用在教育领域后,不知道继续深耕在线教育的这些公司里,谁又是新一轮的最大赢家?

本文来自微信公众号:量子位 (ID:QbitAI),作者:衡宇

Published by

风君子

独自遨游何稽首 揭天掀地慰生平

发表回复

您的电子邮箱地址不会被公开。 必填项已用 * 标注