解决通用LLM“偏科”问题，数学大模型MathGPT要来了！|每日报道

机器之心原创

作者：蛋酱

数学大模型 MathGPT，专治大语言模型的「偏科」问题。

【资料图】

不做通用 LLM，不基于现有 LLM 做微调和接口调用，学而思自研的数学大模型 MathGPT 要来了。

这对于全世界的数学爱好者来说，都是个值得关注的好消息。

MathGPT 是面向全球数学爱好者和科研机构，以数学领域的解题和讲题算法为核心的大模型。据了解，学而思已将 MathGPT 定位为公司核心项目，由 CTO 田密负责，今年春节前，研发正在进行中，该项目已经启动相应的团队建设、数据、算力准备和技术研发。

进度方面，团队目前已经取得阶段性成果，今年内将推出基于该自研大模型的产品级应用。

此外，学而思已经启动在美国硅谷的团队建设，将成立一支海外算法和工程团队，在全球范围内招募优秀的人工智能专家加入。

大语言模型「偏科」，怎么解？

打造 MathGPT，可以比作「一项绕开大语言模型（LLM）能力短板的工程」。

OpenAI 在今年三月份发布了大语言模型 GPT-4，国内百度、阿里也发布了各自的大模型产品，这些大语言模型在语言翻译、摘要、理解和生成等任务上有出色表现。

但通用语言模型看上去更像一个「文科生」，目前已有的产品在数学问题的解决、讲解、问答和推荐方面还存在明显不足，即使是最先进的大语言模型也难以正确地回答大量数学问题。

一个非常生动的例子是，在 ChatGPT 刚发布之后的测试中，它被问到一个经典「鸡兔同笼」问题（如下图）。ChatGPT 写出的解题过程看上去非常有条理，但仔细一看 —— 答案却是错的？

有点「一本正经胡说八道」的意思。

计算机显然比人类更擅长具体的数学计算，但远没有透彻掌握「推理」这件事。在 AI 语言模型的「脑回路」中，复杂的数学方程式可能被视为了一种语言，而解决方案更像是「翻译问题」。

但「推理问题」恰恰需要许多其他类型问题不涉及的鲁棒性和严谨性。即使过程中的某一步出了一点差错，最终整个答案都将是错误的。尽管模型在更大的数据样本上训练之后往往会变得更加鲁棒并减少错误，但在推理这件事上，模型规模的扩展似乎不那么奏效。

而且，对于有些数学问题，虽然模型能够解决，但方法更偏成年人，无法针对适龄孩子的知识结构和认知水平做适配。

这让研究人员们意识到，训练语言模型解决数学问题和阐述思路似乎需要更有针对性的「定向训练」方法。

「这种不足是由 LLM 模型的自身特点决定的。」学而思 AI 团队负责人介绍，LLM 大模型来自对海量语言文本的训练，因此最擅长语言处理。行业内偏向基于 LLM 大模型做阅读、写作类应用，但如果想要在数学能力上有突破，就需要研发新的大模型。

正因此，学而思决心组建团队专研 MathGPT—— 数学领域大模型，用自己在数学和 AI 上的多年积累，面向全球范围内的数学爱好者和科研机构，做好 AI 大模型时代的数学基础工作。

总体来说，学而思希望通过 MathGPT 弥补和攻克大语言模型的三个问题：

第一，题目要解对，现在 GPT 结果经常出现错误；第二，解题步骤要稳定、清晰，现在 GPT 的解题步骤每次都不一样，而且生成内容经常很冗余；第三，解题要讲的有趣、个性化，现在 GPT 的解释过于「学术」和机械，对孩子的学习体验很不友好。

学而思 AI 团队表示，由于大语言模型的推理与计算能力有限，因此 MathGPT 需要结合大语言模型和计算引擎两者的能力，大语言模型需要理解题目、分步解析，并在合适的步骤自行调用计算引擎。

做 MathGPT，学而思有哪些技术储备？

当然，自研数学大模型不能只是一句口号，算法、算力、数据的技术储备缺一不可。对此，学而思也有自身的底气。

「以数学起家」，学而思至今已有 20 年的数学教学经验，积累了庞大的数学相关数据，这些数据为训练 MathGPT 提供了丰富的物料。另外，学而思的海外业务 Think Academy 在全球若干国家和地区深受数学爱好者喜欢，学而思的学生在每年的 IMO 和 AMC 等国际数学竞赛中表现优异，每年都有多位学生在国际奥林匹克数学竞赛中拿到金牌。

作为获国家科技部批准的「智慧教育国家新一代人工智能开放创新平台」建设单位，也是教育行业首批唯一一家人工智能「国家队」成员，学而思在人工智能领域有着多年的深入研究。早在 2017 年，学而思便成立了 AI lab 人工智能实验室。

这些年，在海内外的多个顶级学术会议赛事中，人们都能看到学而思 AI lab 的活跃身影。基于智慧教育人工智能开放创新平台助力，学而思 AI lab 目前已获得各类顶级学术会议比赛冠军 16 项，亚军 6 项。

学而思 AI lab 在各类顶级学术会议比赛获奖情况。

在研究成果上，学而思 AI lab 在计算机视觉顶会以及自然语言顶会中均有多篇论文发表，共有国际期刊和会议高水平学术论文 31 篇，包含光学字符识别、图像、自然语言处理、语音以及多模态等多领域的学术研究。此外已申请专利 220 余项，授权专利 150 余项，软件著作权 60 余项。

「在 ChatGPT 出来之前，我们一直有团队在做自动解题这件事，几年下来已有一些积累，例如已经可以解大多数的计算题和部分应用题了。」在大语言模型火热以后，学而思 AI 团队发现，可以利用大模型提升对常识和题目文本的泛化理解能力。大模型的思维链可以增强对题目的分步推导和互动解答能力，再加上大模型和计算引擎的结合，解题的准确率和召回率可能会有较大提升。

这些技术成果的沉淀，我们也能在学而思已有的落地产品中窥见一二。

今年 2 月，「学而思学习机」上线了基于好未来自研 AI 技术的 AI 讲题机器人「小 π」。小 π 相关技术在 2020 年启动研发，以学而思超 3 亿的专业题库数据作为基础，主打数学等领域的 AI 智能讲题能力，核心优势在于数理逻辑和运算。

面对一道手写或者印刷的数学计算题时，小 π 不仅会对题目进行智能 AI 拆解分析，还能生成逻辑流畅、表达清晰的语言，将题目的解题方法讲解出来。有时，小 π 还会传授一些分数、小数等复杂计算甚至「凑数、组合」的巧妙算法。

在 ChatGPT 相关技术的启发下，学而思希望进一步实现学习机等产品的升级迭代，预期将在题目覆盖率、人机互动性、题目讲解生动性等方面实现大幅提升。比如，学而思学习机还将在不久后上线「AI 助手」。「AI 助手」涵盖作文助手、口语助手、阅读助手、数学助手等相关功能，计划于 5 月 11 日开启内测。

不止于「解题」的探索之路

如何利用大语言模型服务各行各业是当下社会的焦点问题。很多行业都可以直接与 OpenAI 合作，在 GPT 大模型上做微调和接口调用，增强原有的产品体验。

但像数学、医学等领域，对 AI 的需求是准确、清晰、具备强大的逻辑推理能力，且容错率低，通用 LLM 目前的性能表现还无法在上述领域取得突破。

具体到数学领域，目前市场上存在几个主要流派：

一种是利用非 LLM 的传统 AI 技术加上数据库的方式解决数学问题，比如 Google 收购的 Photomath、微软数学、Mathway、专注数学计算的 WolframAlpha 等产品。

还有一种是 AGI 路线，即尝试让通用 LLM「更懂数学」，比如谷歌旗下的 Minerva 模型专门针对数学问题进行调优。此前，用户测试发现 GPT-4 在数学任务上相比其 3.5 版本有了明显的性能提升。尽管这种变化让人一度雀跃，但本质上只是模型接受了更多数据的训练 ——GPT-4 仍然不能保证计算结果的准确或给出清晰易懂的推理过程。

值得注意的是，学而思选择了另一条少有人走的路：不基于现有 LLM 做微调和接口调用、不做通用 LLM，而是自研基于专业领域的「数学大模型」MathGPT，致力于打造自主、稳定、可持续、高质量的学习解决方案。

在大语言模型不断进化的浪潮下，不同流派的技术路线选择孰优孰劣，仍有待讨论和验证。MathGPT 的表现如何，也将成为今年内人们非常关注的大事件之一。

至于未来应用，不难想象，MathGPT 最直接的落地方式之一就是成为 24 小时在线的「AI 教师」。学而思表示，初代版本的 MathGPT 将可以在教研助手、个性化学情分析、课后答疑、组卷助手等几个方面，辅助人类教师工作。从技术和产品的设计上，MathGPT 也会考虑到用户使用场景，通过有监督微调和强化学习的方式，不断改进性能，迭代版本。

再看长远一点，数学是很多应用问题的基础，也是众多科学问题的基础。如果一个大模型擅长于解决数学问题，那么它就有潜力去解决许多其他有用的问题，比如模拟行星轨道、原子运动、信号频率、蛋白质折叠等。

这些未来的探索，既取决于即将到来的 MathGPT，也和一方应用的进化、成熟度相关，更取决于各行各业的开发者如何运用好 MathGPT。