张俊林:OpenAI o1的价值意义及强化学习的Scaling Law

蹭下热度谈谈 OpenAI o1 的价值意义及 RL 的 Scaling law。

一、OpenAI o1 是大模型的巨大进步
我觉得 OpenAI o1 是自 GPT 4 发布以来,基座大模型最大的进展,逻辑推理能力提升的效果和方法比预想的要好,GPT 4o 和 o1 是发展大模型不同的方向,但是 o1 这个方向更根本,重要性也比 GPT 4o 这种方向要重要得多,原因下面会分析。


为什么说 o1 比 4o 方向重要?
这是两种不同的大模型发展思路,说实话在看到 GPT 4o 发布的时候我是有些失望的,我当时以为 OpenAI 会优先做 o1 这种方向,但是没想到先出了 GPT 4o。GPT 4o 本质上是要探索不同模态相互融合的大一统模型应该怎么做的问题,对于提升大模型的智力水平估计帮助不大;而 o1 本质上是在探索大模型在 AGI 路上能走多远、天花板在哪里的问题,很明显第二个问题更重要。

GPT 4o 的问题在于本身大模型的智力水平还不够高,所以做不了复杂任务,导致很多应用场景无法实用化,而指望靠图片、视频这类新模态数据大幅提升大模型智力水平是不太可能的,尽管确实能拓展更丰富的多模态应用场景,但这类数据弥补的更多是大模型对外在多模态世界的感知能力,而不是认知能力。提升大模型认知能力主要还要靠 LLM 文本模型,而提升 LLM 模型认知能力的核心又在复杂逻辑推理能力。LLM 的逻辑推理能力越强,则能解锁更多复杂应用,大模型应用的天花板就越高,所以不遗余力地提升大模型尤其是文本模型的逻辑能力应该是最重要的事情,没有之一。

如果 o1 模型能力越做越强,则可以反…
原文链接

感谢阅读!如果您对AI的更多资讯感兴趣,可以查看更多AI文章:GPTNB

张俊林:OpenAI o1的价值意义及强化学习的Scaling Law

https://www.gptnb.com/2024/09/15/2024-09-14-auto5_2-QLB3LB/

作者

ByteAILab

发布于

2024-09-15

更新于

2025-03-21

许可协议