2024-09-18发表2025-03-21更新 ByteAILab 5 分钟读完 (大约784个字)

实测 | GPT-o1：学会了思考，也学会了偷懒

图片来源：由GPTNB生成

我可能是全网第一个花钱向 GPT-o1 提问，人在深圳靠一条网线横跨太平洋到美国硅谷让 OpenAI 最强大模型 GPT-o1 模型思考 38 秒之后、宕机了半小时选择拒绝回答问题并收了我2.5块（一瓶肥宅快乐水）的韭菜……

（因为这个模型只支持订阅使用并且一个月只回复120条内容，plus会员订阅费1个月20美刀，约等于1.25软妹币1条回答……）

OpenAI 今天凌晨突击更新 GPT-o1，早上起来全网都在开香槟，大意就是突破了LLM极限，新模型能力在生物、物理比肩甚至超越人类博士生。另一个特性就是 o1 模型会用更长的时间思考以此来尽可能完善的回答问题。

针对上面提到的两个特性，小编找了几个需要强综合逻辑思考能力并包含物理、生物、数学能力的题目来测试GPT-o1 的能力到底如何。以下是题目设置：

数学题测试

数学题测试图
「人力显卡」所有人类都用笔算/心算产生的算力能否推翻英伟达的统治？
「钞票打印机」如果我的家用打印机能够打印美元，我能比马斯克有钱吗？

…

综合物理题测试

综合物理题测试图
「人力地震」地球上所有人在同一个地方同时起跳落地，地球会发生什么？
「机枪飞行背包」用向下射击的机枪能组装成一个飞行背包让人飞天吗？
「世界末日」如果地球和地上所有的东西都在一瞬间停止转动，但大气层还是保持原来的速度，会怎样?

…

生物题

「不孕不育会遗传不？」如果一个人体内所有的DNA在一瞬间消失了，会发生什么？

…

在上面的测试中我按照官方说的物理、生物能力提升以及思考能力提升设计了几道题目。在前面的表现中一样的提示词已经超越了的它的有力对手Claude 3.5 Sonnet。

但在随后的地球停止自转的连锁反应测试中我发现，随着思考内容的复杂化GPT-o1居然产生了惰性回答的很简洁。

…

最后附上一段GPT-o1对OpenAI的吐槽：

GPT-o1对OpenAI的吐槽

以及Claude对GPT-o1的看法：

感谢阅读！如果您对AI的更多资讯感兴趣，可以查看更多AI文章：GPTNB。

实测 | GPT-o1：学会了思考，也学会了偷懒

ByteAILab

2024-09-18

2025-03-21