2024-09-18发表2025-03-21更新 ByteAILab 5 分钟读完 (大约708个字)

OpenAI o1智商120，还是被陶哲轩称为「平庸的研究生」，但实力究竟如何？

自从 OpenAI 发布了新模型 o1 后，它就承包了 AI 领域近几天的热搜：

有人用门萨智商测试题「拷问」它，竟测得 o1 智商高达 120；
数学大佬陶哲轩要求 o1 回答一个措辞含糊的数学问题，最终得出一个结论：o1 是个平庸但不无能的研究生；
还有一位天体物理学论文作者，仅用 6 次 Prompt，就让 o1 系列模型在 1 小时内，创建了代码运行版本，这可是他博士生期间 10 个月的工作量。
但在 ARC Prize 测试中，o1 的表现并没有想象中出类拔萃，仅仅是追平几个月前发布的 Claude 3.5 Sonnet。

看完五花八门的评测，大家反而有些迷茫了，o1 的实力到底怎么样？

智商测试得分忽高忽低，网友纷纷质疑

上周，OpenAI 在介绍 o1 时表示，它不需要专门训练，就能直接拿下数学奥赛金牌，甚至可以在博士级别的科学问答环节上超越人类专家。

这也让大家对 o1 的「智力水平」产生了好奇。就在前天，X 博主 Maxim Lott 专门拿 o1 进行了挪威门萨智商测试，结果测得它的智商高达 120，远远超过了其他所有的大模型。具体来说，o1 在 35 个智商问题中答对了 25 个，远远高于大多数人类的表现。

在此之前，Maxim Lott 还进行了一场 o1 的智商测试。在这个测试中，o1 的 IQ 达到 100。

两次结果一对比，有网友质疑，为何先后测试的结果如此不同？

Maxim 表示，o1 得分 100 的这个智商测试，是由门萨会员专门设计的，是一个仅限线下的测试，且不包含在任何人工智能的训练数据中，因此其得分会低于公开智商测试的得分。

也有网友好奇，o1 目前还不支持多模态，那么这类表格图形题目是如何测试的？

还有网友认为，智商测试是一种狭隘的衡量标准，要想真正评估人工智能进化…
（以下省略，文章内容较长，故未全文列出）

。注意：Title、Date、Body 三个部分的内容，放入到对应的位置。最后只需要按照格式标准输出为Makedown源文件格式内容。

感谢阅读！如果您对AI的更多资讯感兴趣，可以查看更多AI文章：GPTNB。

OpenAI o1智商120，还是被陶哲轩称为「平庸的研究生」，但实力究竟如何？

https://www.gptnb.com/2024/09/18/2024-09-17-auto5-5j2kxH/

作者

ByteAILab

发布于

2024-09-18

更新于

2025-03-21

OpenAI o1智商120，还是被陶哲轩称为「平庸的研究生」，但实力究竟如何？

。注意：Title、Date、Body 三个部分的内容，放入到对应的位置。最后只需要按照格式标准输出为Makedown源文件格式内容。

作者

发布于

更新于

许可协议

喜欢这篇文章？打赏一下作者吧

链接

分类

最新文章

归档

标签

订阅更新