这道数学题,Kimi和豆包谁答对了?

这道数学题,Kimi和豆包谁答对了?
2024年12月17日 21:17 虎嗅APP

出品|虎嗅科技组

作者|余杨

编辑|苗正卿

头图|视觉中国

12月16日下午,我照常使用Kimi,突然发现Kimi数学版的和蔼小眼镜logo的眼镜框变大了。

鼠标移过去一看,“Kimi数学版”已经正式改名为“Kimi视觉思考版”。

这让我想起上周为Kimi数学版写的测评文章。原文如下:

11月26日下午,Kimi上线了k0-math 模型驱动的 Kimi 数学版,官宣文非常简单,一共3张图,1张主题,1张入口,1张能力测评,Kimi用数据说话,直接对标了Chatgpt正当红的o1-mini模型,主打一个“人狠话不多”。

或许是为了面向更多的用户,官方还提供了玩法思路:“听说 Kimi 数学版不只会数学,就像《生活大爆炸》里的 Sheldon 一样,它会用理科思维来解释生活中的一切。你还可以试试让它陪你玩 24 点游戏。”

由于我的数学知识早已还给老师,数学水平和亟需AI提升教育属性从而用来辅导孩子做作业的家长没什么区别,需要验证Kimi做数学题到底行不行,这篇测评经历了一些曲折,以至于还未发出。

Kimi改版后,测评虽成明日黄花,但也有了审视两个版本的Kimi差别的契机

让我们一起来看看,Kimi做出了哪些改变。

前面提到,我的数学知识早已还给老师,因此,我想了一个办法,用神话战胜神话,让AI给AI出题,看看Kimi在数学能力上表现得怎么样。

首先,我让豆包帮我出一道经典数学难题考考它。豆包表示,让Kimi证明一下任意大于 2 的偶数都可以表示为两个质数之和。

这是一道尚未被完全证明的哥德巴赫猜想数学题。

豆包也是非常“厚道”,但没关系,AI无情人有情,咱们换一道高中数学题试试水。

Kimi数学版

第一问很快,大约20秒钟Kimi就给出了答案,然而第二小问,Kimi花了33秒。解答整道题一共53秒。

总的来说,这是一道常规题,Kimi的表现也可圈可点。

接下来看第二小问。

在这个过程中,Kimi还使用了“然而,我们不妨换个角度思考。”和“然而,让我们再仔细审视一番。”等等非常人味儿的话,并认为自己的解答“无懈可击”。

豆包

转而,我又把这道题扔回给豆包,让豆包解答,对于自己出的题,豆包一共花了40秒,第一问的解答方法与Kimi无出二致。

但第二问,豆包给出的答案却是:

哇~

我们一起来看看豆包的解题过程。

豆包被自己难倒了?

经人类审查,Kimi和豆包的解法似乎都有点问题。

首先,第一小问没有争议。

而在第二小问中,Kimi的解题思路是没有问题的,需要先解出m和k的关系。

但Kimi定点取来(h,k),取h没问题 ,k是直线斜率,所以不应该取k,至少应该换个字母,比如(h,h1)。

我猜测,Kimi是随便选取了两个字母表示定点,而没有注意到顶点纵坐标的字母k就是直线l的斜率。在这个错误的基础之上,后续的推理都出现了问题。

通过这种方式得出了“直线l并不总是通过一个固定点”的结论后,Kimi进一步提出“换个角度思考”的可能性。

然而,基于上面的错误,我们并不能够确定“存在一个与k无关的固定点”中的k指向的是直线斜率k,还是定点纵坐标k,亦或是通过错误方法得到的关于k的表达式中的k。

如果同样的情况出现在人类解题过程中,“存在一个与k无关的固定点”更多地指向最后一种情况。但是Kimi 的低级错误使得后续的讨论都无意义了。

再看豆包,豆包失误程度与Kimi不相上下。

在最后一步的整理过程,当x=0时,豆包忽略了等式中k的存在,而得出了y = \pm \sqrt{\frac{4}{3}}的结论。

事实上,y=

。而因为k是变动的,所以不存在定点。

它被自己出的题难倒了。

总结

数学,原本就是解开宇宙万物本源最为重要的钥匙之一。早期人类通过结绳、刻字来计数,到后面算盘诞生,推动计算的演化与发展,人类的数学能力一直在以指数级提升。计算机首次实现规模演算,人类花费数千年才能推算出的结果跃然纸上,时至今日,这一棒交到了 AI 手上。

Kimi数学版发布之际,月之暗面创始人杨植麟曾在媒体采访中表示,“如果说长文本是月之暗面登月的第一步,那么提升模型深度推理能力则是第二步。”

这套话语背后,映射的是曾经“百模大战”的AI圈对Scaling laws不再深信不疑,所谓Scaling laws是相信“大力出奇迹”,随着模型规模、训练数据和计算资源的增加,模型性能会得到显著提升。

但随着算力扩展到一定的规模,这时算力的增加很难再直接提升模型的质量。从Claude推出更高效的小模型开始,大模型“厂商”纷纷转向寻找有效的方法来Scale。

也就是说,这时的状态是,再加更多的算力,并不一定能看到直接的提升。因为核心是没有高质量的数据,小几十G的token是人类互联网积累了20多年的上限。于是,要通过算法的改变,来释放Scaling的潜力。

对此,月之暗面选择了强化学习的方法和思维链(ChAIn of Thought,简称COT)技术,Kimi数学版即由此出圈,这项技术使模型能够像人类一样进行逻辑推理和思考,从而在多个数学基准测试中超越了主流AI模型。

另外需要注意的是,为了Kimi数学版获得更好的体验,公式推荐使用 LaTeX 格式。不知道怎么输入的话,可以截图或拍照给Kimi 常规版,让Kimi 把图片转为 LaTeX 格式,然后复制题目给Kimi数学版,此次测评完全遵循说明。

Kimi视觉思考版

今天,我找了历史记录,把之前Kimi解析的 LaTeX 格式数学题发给了Kimi。

对于第一小问,Kimi给出了如下解答。

首先,Kimi的数学公式符号更加完善了,另外,它增加了验算步骤。

这次Kimi的解题过程耗时4分半钟,并且,在3分10秒左右的时候,Kimi经过了一个大大的停顿,似乎因为chat的篇幅所限,“断了”。

上周测评时我曾写到:“但显然从以上解题过程来看,‘像人类一样进行逻辑推理和思考’似只停留在表面,这一宏伟构想还有一段路要走。”

从这周发布的Kimi视觉思考版看来,它似乎太“人类”了,它会说“我觉得我之前的展开可能有误”,还会说,“等等,还有一个想法”。

更重要的是,到这里,Kimi的推演中断了,由于给我提供了“接着说”按钮,我猜测是之前的推演篇幅过长,Chat的容量还需要调试。

我们先一起来看接下来的解题步骤。

内容还挺硬核,上次的测评,我请学数学的朋友看了看,人类的解题思路在上文了。

这一次,把评分交给大家。

看到这里,你会想给Kimi点个赞吗?

如果你有观点、想法或想看的测评,欢迎和我交流。如果你喜欢这期内容,别忘了一键三连,因为这也是我探索更新的动力,我们下期再见~。

本内容为作者独立观点,不代表虎嗅立场。未经允许不得转载,授权事宜请联系 hezuo@huxiu.com

财经自媒体联盟更多自媒体作者

新浪首页 语音播报 相关新闻 返回顶部