2024-09-16发表2025-03-21更新 ByteAILab 10 分钟读完 (大约1514个字)

张俊林：OpenAI o1的价值意义及强化学习的Scaling Law

蹭下热度谈谈 OpenAI o1 的价值意义及 RL 的 Scaling law。

一、OpenAI o1 是大模型的巨大进步
我觉得 OpenAI o1 是自 GPT 4 发布以来，基座大模型最大的进展，逻辑推理能力提升的效果和方法比预想的要好，GPT 4o 和 o1 是发展大模型不同的方向，但是 o1 这个方向更根本，重要性也比 GPT 4o 这种方向要重要得多，原因下面会分析。

为什么说 o1 比 4o 方向重要？
这是两种不同的大模型发展思路，说实话在看到 GPT 4o 发布的时候我是有些失望的，我当时以为 OpenAI 会优先做 o1 这种方向，但是没想到先出了 GPT 4o。GPT 4o 本质上是要探索不同模态相互融合的大一统模型应该怎么做的问题，对于提升大模型的智力水平估计帮助不大；而 o1 本质上是在探索大模型在 AGI 路上能走多远、天花板在哪里的问题，很明显第二个问题更重要。
GPT 4o 的问题在于本身大模型的智力水平还不够高，所以做不了复杂任务，导致很多应用场景无法实用化，而指望靠图片、视频这类新模态数据大幅提升大模型智力水平是不太可能的，尽管确实能拓展更丰富的多模态应用场景，但这类数据弥补的更多是大模型对外在多模态世界的感知能力，而不是认知能力。提升大模型认知能力主要还要靠 LLM 文本模型，而提升 LLM 模型认知能力的核心又在复杂逻辑推理能力。LLM 的逻辑推理能力越强，则能解锁更多复杂应用，大模型应用的天花板就越高，所以不遗余力地提升大模型尤其是文本模型的逻辑能力应该是最重要的事情，没有之一。
如果 o1 模型能力越做越强，则可以反奠 GPT 4o 这种多模态大一统模型，可以通过直接用 o1 基座模型替换 GPT 4o 的基座、或者利用 o1 模型生成逻辑推理方面的合成数据增强 GPT 4o、再或者用 o1 蒸馏 GPT 4o 模型….. 等等，能玩的花样应该有很多，都可以直接提升 GPT 4o 的复杂任务解决能力，从而解锁更复杂的多模态应用场景。OpenAI 未来计划两条线，一条是 o1，一条是 GPT 4o，它的内在逻辑大概应该是这样的，就是说通过 o1 增强最重要的基座模型逻辑推理能力，而再把这种能力迁移到 GPT 4o 这种多模态通用模型上。
OpenAI o1 的做法本质上是 COT 的自动化。
我们知道，通过 COT 把一个复杂问题拆解成若干简单步骤，这有利于大模型解决复杂逻辑问题，但之前主要靠人工写 COT 来达成。从用户提出的问题形成树的根结点出发，最终走到给出正确答案，可以想像成类似 AlphaGo 下棋，形成了巨大的由 COT 具体步骤构成的树形搜索空间，这里 COT 的具体步骤的组合空间…
…

二、预训练 Scaling Law 的来源及 O1 提到的 RL Scaling law
粗分的话，大语言模型最基础的能力有三种：语言理解和表达能力、世界知识存储和查询能力以及逻辑推理能力（包括数学、Coding、推理等理科能力，这里 Coding 有一定的特殊性，是语言能力和逻辑掺杂在一起的混合能力，Coding 从语言角度可以看成一种受限的自然语言，但是混杂着复杂的内在逻辑问题。从语言角度看，Coding 貌似是容易解决的，从逻辑角度看又相对难解决。总之，Coding 目前看是除了语言理解外，大模型做得最好的方向）。
语言理解和表达是 LLM 最强的能力，初版 ChatGPT 就可以完全胜任各种纯语言交流的任务，基本达到人类水准，目前即使是小模型，在这方面比大模型能力也不弱；世界知识能力虽说随着模型规模越大效果越好，但幻觉问题目前无法根治，这是制约各种应用的硬伤之一；逻辑推理能力一直都是 LLM 的弱项，也是最难提升的方面，从 GPT 4 开始往后，如何有效并大幅提升 LLM 的逻辑推理能力是体现不同大模型差异和优势的最核心问题。所以，大模型最重要的一个是世界知识方面如何有效消除幻觉，一个是如何大幅提升复杂逻辑推理能力。语言能力已不是问题。
从大模型的基础能力，我们再说回已经被谈滥了的大模型 Scaling law。现在普遍认为通过增加数据和模型规模来提升大模型效果的 Scaling law 模式，其增长速度在放缓。其实我们对照下大模型的三个基础能力的能力来源，基本就能看出来这是为啥….

原文链接：https://weibo.com/1064649941/5078239682499316?sourceType=weixin&from=10E9195010&wm=9856_0004&featurecode=newtitle&s_channel=4&s_trans=1064649941_5078239682499316

感谢阅读！如果您对AI的更多资讯感兴趣，可以查看更多AI文章：GPTNB。

张俊林：OpenAI o1的价值意义及强化学习的Scaling Law

https://www.gptnb.com/2024/09/16/2024-09-15-auto5-T328lu/

作者

ByteAILab

发布于

2024-09-16

更新于

2025-03-21

张俊林：OpenAI o1的价值意义及强化学习的Scaling Law

作者

发布于

更新于

许可协议

喜欢这篇文章？打赏一下作者吧

链接

分类

最新文章

归档

标签

订阅更新