一文看懂 OpenAI 最强模型o1：怎么用好，为何翻车，对我们意味着什么_

OpenAI o1 发布已经一个星期了，却还是一个洋葱般的谜，等待一层层拨开。

极客的玩法没有天花板，让 o1 做 IQ 测试，刷高考卷，解读密文。也有用 AI 打工的用户觉得，o1 并没有那么好用，但不知道是自己的问题还是 AI 的问题。

都知道它擅长推理，但这是为什么？比起我们的老朋友 GPT-4o，o1 到底强在哪里，又适合用在什么地方？

我们收集了一些大家可能关心的问题，尽可能通俗地解答，让 o1 离普通人更近一点。

o1 有什么特别的

o1 是 OpenAI 最近发布的推理模型，目前有两个版本：o1-preview 和 o1-mini。

它最与众不同的是，回答之前会思考，产生一个很长的内部思维链，逐步推理，模仿人类思考复杂问题的过程。

图片来自：OpenAI

能够做到这点，源于 o1 的强化学习训练。

如果说以前的大模型是学习数据，o1 更像在学习思维。

就像我们解题，不仅要写出答案，也要写出推理过程。一道题目可以死记硬背，但学会了推理，才能举一反三。

拿出打败围棋世界冠军的 AlphaGo 类比，就更加容易理解了。

AlphaGo 就是通过强化学习训练的，先使用大量人类棋谱进行监督学习，然后与自己对弈，每局对弈根据输赢得到奖励或者惩罚，不断提升棋艺，甚至掌握人类棋手想不到的方法。

o1 和 AlphaGo 有相似之处，不过 AlphaGo 只能下围棋，o1 则是一个通用的大语言模型。

o1 学习的材料，可能是高质量的代码、数学题库等，然后 o1 被训练生成解题的思维链，并在奖励或惩罚的机制下，生成和优化自己的思维链，不断提高推理的能力。

这其实也解释了，为什么 OpenAI 强调 o1 的数学、代码能力强，因为对错比较容易验证，强化学习机制能够提供明确的反馈，从而提升模型的性能。

o1 适合打些什么工

从 OpenAI 的评测结果来看，o1 是个当之无愧的理科做题家，适合解决科学、编码、数学等领域的复杂问题，在多项考试中拿下高分。

它在Codeforces编程竞赛中超过了 89% 的参赛者，在美国数学奥林匹克竞赛的资格赛中名列全美前 500 名，在物理、生物和化学问题的基准测试中超越了人类博士水平的准确率。

o1 的优秀，其实也体现了一个问题：当 AI 越来越聪明，怎么衡量它们的能力也成了难题。对于 o1 来说，大多数主流的基准测试已经没有意义了。

紧跟时事，o1 发布一天后，数据标注公司Scale AI和非营利组织 CAIS 开始向全球征集 AI 考题，但因为担心 AI 学坏，题目不能和武器相关。

征集的截止日期为 11 月 1 日，最终，他们希望构建一个史上最难的大模型开源基准测试，名字还有点中二：Humanity’s Last Exam（人类最后的考试）。

根据实测来看，o1 的水准也差强人意——没有用错成语，大体上还可让人满意。

数学家陶哲轩认为，使用 o1 就像在指导一个水平一般但不算太没用的研究生。

在处理复杂分析问题时，o1 可以用自己的方式提出不错的解决方案，但没有属于自己的关键概念思想，也犯了一些不小的错误。

别怪这位天才数学家说话狠，GPT-4 这类更早的模型在他看来就是没用的研究生。

经济学家Tyler Cowen也给 o1 出了一道经济学博士水平考试的题目，AI 思考后用简单的文字做了总结，答案挺让他满意，「你可以提出任何经济学问题，并且它的答案不错」。

总之，博士级别的难题，不妨都拿来考考 o1 吧。

o1 目前不擅长什么

可能对很多人来说，o1 并没有带来更好的使用体验，一些简单的问题，o1 反而会翻车，比如井字棋。

这其实也很正常，目前，o1 在很多方面甚至不如 GPT-4o，仅支持文本，不能看，不能听，没有浏览网页或处理文件和图像的能力。

所以，让它查找参考文献什么的，暂时别想了，不给你瞎编就不错了。

不过，o1 专注在文本有其意义。

Kimi 创始人杨植麟最近在天津大学演讲时提到，这一代 AI 技术的上限，核心是文本模型能力的上限。

文本能力的提高是纵向的，让 AI 越来越聪明，而视觉、音频等多模态是横向的，可以让 AI 做越来越多的事情。

不过，涉及到写作、编辑等语言任务时，GPT-4o 的好评反而比 o1 更多。这些也属于文本，问题出在哪？

原因可能和强化学习有关，不像代码、数学等场景有标准的答案，文无第一，语言任务往往缺乏明确的评判标准，难以制定有效的奖励模型，也很难泛化。

哪怕在 o1 擅长的领域，它也不一定是最好的选择。一个字，贵。

AI 辅助编码工具 aider 测试了 o1 引以为傲的代码能力，有优势，但不明显。

在实际使用中，o1-preview 介于 Claude 3.5 Sonnet 和 GPT-4o 之间，同时成本要高得多。综合来说，代码这条赛道，Claude 3.5 Sonnet 仍然最有性价比。提示词简单直接：模型擅长理解和响应简短、清晰的指令，不需要大量的指导。避免思维链提示词：模型会在内部执行推理，所以没有必要提示「一步一步思考」或「解释你的推理」。使用分隔符让提示词更加清晰：使用三引号、XML 标签、节标题等分隔符，清楚地指示输入的不同部分。限制检索增强生成中的额外上下文：仅包含最相关的信息，防止模型的响应过于复杂。第一级，「ChatBots」聊天机器人，比如 ChatGPT。第二级，「Reasoners」推理者，解决博士水平基础问题的系统。第三级，「Agents」智能体，代表用户采取行动的 AI 代理。第四级，「Innovators」创新者，帮助发明的 AI。第五级，「Organizations」组织，AI 可以执行整个人类组织的工作，这是实现 AGI 的最后一步。