2024-09-25发表2025-03-21更新 ByteAILab 7 分钟读完 (大约1000个字)

LLM仍然不能规划，刷屏的OpenAI o1远未达到饱和

实验证明，大模型的 System 2 能力还有待开发。

规划行动方案以实现所需状态的能力一直被认为是智能体的核心能力。

随着大型语言模型（LLM）的出现，人们对 LLM 是否具有这种规划能力产生了极大的兴趣。

最近，OpenAI 发布了 o1 模型，一举创造了很多历史记录。o1 模型拥有真正的通用推理能力。在一系列高难基准测试中展现出了超强实力，相比 GPT-4o 有巨大提升，让大模型的上限从「没法看」直接上升到优秀水平，不专门训练直接数学奥赛金牌，甚至能在博士级别的科学问答环节上超越人类专家。

那么，o1 模型是否具备上述规划能力？

2022 年，来自亚利桑那州立大学（ASU）的研究团队开发了评估 LLM 规划能力的基准 ——PlanBench。现在，亚利桑那州立大学研究团队全面审视了当前 LLM 在 PlanBench 上的表现，包括 o1 模型。值得注意的是，虽然 o1 在基准测试上性能超过了竞争对手，但它还远未达到饱和状态。

[SOTA 性能的 LLM 仍然不会规划]

对于 vanilla LLM（通过 RLHF 微调的 Transformer 模型）来说，PlanBench 基准仍然充满挑战，即使在最简单的测试集上，模型表现也不佳。

下表为当前和前一代 LLM 的结果，测试领域包括 Blocksworld 和 Mystery Blocksworld…