实测 | GPT-o1:学会了思考,也学会了偷懒
文章来源:AI科技评论
原文链接:https://mp.weixin.qq.com/s/gZY1tLetXXvvzvW_NyZttw
图片来源:由GPTNB生成
我可能是全网第一个花钱向 GPT-o1 提问,人在深圳靠一条网线横跨太平洋到美国硅谷让 OpenAI 最强大模型 GPT-o1 模型思考 38 秒之后、宕机了半小时选择拒绝回答问题并收了我2.5块(一瓶肥宅快乐水)的韭菜……
(因为这个模型只支持订阅使用并且一个月只回复120条内容,plus会员订阅费1个月20美刀,约等于1.25软妹币1条回答……)
OpenAI 今天凌晨突击更新 GPT-o1,早上起来全网都在开香槟,大意就是突破了LLM极限,新模型能力在生物、物理比肩甚至超越人类博士生。另一个特性就是 o1 模型会用更长的时间思考以此来尽可能完善的回答问题。
针对上面提到的两个特性,小编找了几个需要强综合逻辑思考能力并包含物理、生物、数学能力的题目来测试GPT-o1 的能力到底如何。以下是题目设置:
数学题测试
「人力显卡」所有人类都用笔算/心算产生的算力能否推翻英伟达的统治?
「钞票打印机」如果我的家用打印机能够打印美元,我能比马斯克有钱吗?
…
综合物理题测试
「人力地震」地球上所有人在同一个地方同时起跳落地,地球会发生什么?
「机枪飞行背包」用向下射击的机枪能组装成一个飞行背包让人飞天吗?
「世界末日」如果地球和地上所有的东西都在一瞬间停止转动,但大气层还是保持原来的速度,会怎样?
…
生物题
「不孕不育会遗传不?」如果一个人体内所有的DNA在一瞬间消失了,会发生什么?
…
在上面的测试中我按照官方说的物理、生物能力提升以及思考能力提升设计了几道题目。在前面的表现中一样的提示词已经超越了的它的有力对手Claude 3.5 Sonnet。
但在随后的地球停止自转的连锁反应测试中我发现,随着思考内容的复杂化GPT-o1居然产生了惰性回答的很简洁。
…
最后附上一段GPT-o1对OpenAI的吐槽:
以及Claude对GPT-o1的看法:
感谢阅读!如果您对AI的更多资讯感兴趣,可以查看更多AI文章:GPTNB。
实测 | GPT-o1:学会了思考,也学会了偷懒