Kimi发布视觉思考模型k1，会看图做题，还能看图定位你在哪里_

最近，大模型厂商们都在卯足了劲儿往视觉的方向使力，OpenAI上线了Sora，Google向开发者开放Gemini 2.0 Flash的多模态API，还演示了Project Astra在视觉理解等方面的能力。

Kimi也整了个“新活”：视觉思考模型k1。根据介绍，这是一个在数理化领域全面对标OpenAl o1、GPT-4o以及 Claude 3.5 Sonnet的视觉思考模型。

一个月前，Kimi推出了数学推理模型k0-math，但它有个小小的遗憾：只认识LaTeX格式的文本，无法处理需要看图的几何题，新的k1视觉思考模型，解锁了包括几何题在内更加全面的数学能力。

说得简单点儿，k0-math会算题，k1则更全能，不仅具备k0的数学能力，还能看懂各种图片，能够从图片里一步步推理出答案。在基础教育各阶段的几何和图形题专项基准能力测试中，k1-preview成绩打平或超过了 OpenAI的o1模型。

说到视觉推理，前段时间有个有意思的研究，语言模型已经可以写诗写小说了，但是依旧会对9.11和9.9比大小这类的问题犯难，同样的问题也出现在视觉模型中，它们能完美理解自然景色或人物照片，却无法进行很好的推理。

德国达姆施塔特工业大学的研究团队发现，即便是号称最强的AI视觉模型，在处理一些看起来很简单的视觉推理任务时，也是一脸懵圈，会出现明显失误。别说什么高深的任务了，连识别垂直线条、判断螺旋方向这种基础操作都可能出现困难。在他们的测试中，GPT-4o在100个视觉谜题里才对了21个，成绩略显尴尬。

硅星人随机测试了论文当中的一题，Kimi视觉思考版虽然得出了正确答案，但是过程中存在幻觉，数错了圈外圆圈的数量。

不难看出，AI的视觉推理一直是业界的一个难题，这块儿还真有点短板明显的意思，有时候智商在线，有时候却在一些看起来很基础的问题上翻车。

那么这次的k1在视觉推理上的具体表现如何？我们再来看几个真实案例。

GeoGuessr最强外挂？

如果你玩过GeoGuessr这款地理版“你画我猜”，就知道这游戏有多烧脑——给你一张随机街景图，让你猜这是地球上的哪个角落。高手能从路牌、植被、建筑风格里找线索，菜鸟可能连大洲都猜不准（没错说的就是我）。

AI能不能拿来当GeoGuessr外挂？我们在社交媒体上随机选择一张用户拍摄的普通的城市秋景图，没有任何文字信息，也没有地标性建筑。

Kimi视觉思考版从细节入手分析，最后得出可能是上海石库门。距离实际位置距离误差大约在4公里以内，表现不错。不过在推理过程中还是出现了幻觉，它把右下角的小红书水印识别为了“上海”。

当我们把同样的照片丢给豆包时，豆包把图里的元素都看得挺清楚，但没有猜具体位置是哪儿。

在进行追问之后，豆包搜索了一番，似乎是想找到类似的图片，但仍然给出了错误的答案。

ChatGPT的表现稍微好一些，猜中了上海，但并没有给出更准确的答案。

k1是怎么做到的？

Kimi视觉思考版的能力是如何实现的？Kimi官方也介绍了相关的技术架构。

大模型的技术范式正在发生变化，基于强化学习技术的新一代模型引入了过程奖励机制，通过对每一步推理过程打分，激励模型生成更详细的推理步骤，形成高质量的思维链CoT(Chain of Thought)，从而能够挑战更复杂的任务。

这类似一个“奖励机制”——就像训练宠物一样，每当k1把推理过程说得清清楚楚，系统就会给它发“小饼干”。久而久之，它就养成了事事讲究来龙去脉的好习惯。

还记得上学时老师总说“不要只写结果，要把过程写出来”吗？k1就是这样，每一步推理都会告诉你它在想什么。比如看到那张上海街景图，它会一步步分析：这红屋顶的风格...这树的品种...街道布局有点眼熟...就像在实况转播破案过程。

这种能力的背后是端到端的视觉思考模型。过去的推理模型主要基于文本数据训练。即使是处理图像，也需要先通过OCR或其他视觉模型转换成文本，这个过程会损失信息。而k1作为原生的端到端视觉思考模型，将视觉能力和推理能力有机结合，可以直接理解图片信息并进行深度推理。

也就是说，k1把“看图”和“动脑”这两件事结合在了一起。传统AI看图片就像隔着千里打电话——先把图片转成文字描述，再开始推理，中间难免要“掉包”不少细节。

实测下来，在一些棘手场景（比如图片糊得跟马赛克似的，或者一张图里塞了好几道题），确实更靠谱了，我们接着看案例。

拍题更不容易翻车了

学生党免不了要和公式和图形打交道。教材和作业本里少不了“文字+公式+图表”的组合拳。而现实中，遇到不会的题目，大家也经常想着拍个照或者截个图发给AI求解。

但这看似简单的“拍照求助”往往成了一道送命题——有的AI直接表示“对不起，我只认字”；有的则是“已读乱回”，靠OCR转换，结果公式还给你识别错。

光线不行、手写乱七八糟、图拍得糊成一片？在模拟真实拍题环境的测试中，k1的正确率甚至超过了OpenAI和Anthropic的模型。

最离谱的是它居然能认出草书——连很多中国人都认不明白的字体，它也能一个个给你扒拉明白。

我们用草书在线生成器生成了一张图片，然后分别发给了Kimi视觉思考版、豆包以及ChatGPT。

Kimi视觉思考版正确识别出了文字，但它在经过一番分析之后认为这是行书而不是草书。

豆包、ChatGPT均出现识别错误：

结语

近期AI领域呈现出一个明显的技术路线转向，从OpenAI推出o系列模型开始，强化学习逐渐成为行业焦点。这一趋势其实可以追溯到更早期，Anthropic的Claude-Sonnet在从3.0迭代到3.5版本时，通过采用强化学习路线，在代码和数学能力方面取得了显著提升。在这个背景下，Kimi选择了把o1作为对标，走强化学习路线，着重提升模型的推理体验，这与当前国内主流模型厂商的策略似乎形成了对比。如果预训练已经逐渐成为瓶颈，考虑到o1模型所处的发展阶段，现阶段投入强化学习可能是一条更具性价比的技术路线。

o1类的方向，相信国内的各个模型厂商都在做，不过目前智谱、豆包、Minimax、元宝等产品都在更多强调多模态能力，包括电话、图片生成、音乐，以及最近密集更新的视频生成功能等等。

Kimi的k0-math和K1都特别强调了在教育场景中的数学能力和“识题”能力。从用户层面看，这些能力在教育应用场景中有实用价值，毕竟学生群体是Kimi重要的基本盘用户。所以，一方面在市场投放上保持激进，另一方面则将产品研发资源集中投入到核心功能上。没有全面对标OpenAI，但先把对标o1这件事做了，有点“好钢用在刀刃上”的意思？

未来还有啥好玩的？Kimi表示，视觉推理只是k1的第一步，未来还会解锁更多推理能力。视觉推理之后，下一步会是实时视频推理吗？

头条号入驻

品玩有品好玩的科技，一切与你有关。

财经自媒体联盟更多自媒体作者

今日推荐优秀作者看点月榜

新浪财经头条意见反馈留言板

4000520066 欢迎批评指正

Kimi发布视觉思考模型k1，会看图做题，还能看图定位你在哪里

头条号入驻

贴身追随OpenAI的中国公司，从智谱换成了月之暗面

对话firefly萤火虫金舸：做智能电动时代高端小车的引领者

继续对着OpenAI来，Google发布Veo 2、Imagen 3，Sora和DALL-E不香了

财经自媒体联盟更多自媒体作者

热文排行榜