OpenAI o1智商120,还是被陶哲轩称为「平庸的研究生」,但实力究竟如何?

自从 OpenAI 发布了新模型 o1 后,它就承包了 AI 领域近几天的热搜:

有人用门萨智商测试题「拷问」它,竟测得 o1 智商高达 120;
数学大佬陶哲轩要求 o1 回答一个措辞含糊的数学问题,最终得出一个结论:o1 是个平庸但不无能的研究生;
还有一位天体物理学论文作者,仅用 6 次 Prompt,就让 o1 系列模型在 1 小时内,创建了代码运行版本,这可是他博士生期间 10 个月的工作量。
但在 ARC Prize 测试中,o1 的表现并没有想象中出类拔萃,仅仅是追平几个月前发布的 Claude 3.5 Sonnet。


看完五花八门的评测,大家反而有些迷茫了,o1 的实力到底怎么样?

智商测试得分忽高忽低,网友纷纷质疑

上周,OpenAI 在介绍 o1 时表示,它不需要专门训练,就能直接拿下数学奥赛金牌,甚至可以在博士级别的科学问答环节上超越人类专家。

这也让大家对 o1 的「智力水平」产生了好奇。就在前天,X 博主 Maxim Lott 专门拿 o1 进行了挪威门萨智商测试,结果测得它的智商高达 120,远远超过了其他所有的大模型。具体来说,o1 在 35 个智商问题中答对了 25 个,远远高于大多数人类的表现。

在此之前,Maxim Lott 还进行了一场 o1 的智商测试。在这个测试中,o1 的 IQ 达到 100。

两次结果一对比,有网友质疑,为何先后测试的结果如此不同?

Maxim 表示,o1 得分 100 的这个智商测试,是由门萨会员专门设计的,是一个仅限线下的测试,且不包含在任何人工智能的训练数据中,因此其得分会低于公开智商测试的得分。

也有网友好奇,o1 目前还不支持多模态,那么这类表格图形题目是如何测试的?

还有网友认为,智商测试是一种狭隘的衡量标准,要想真正评估人工智能进化…
(以下省略,文章内容较长,故未全文列出)


。注意:Title、Date、Body 三个部分的内容,放入到对应的位置。最后只需要按照格式标准输出为Makedown源文件格式内容。

感谢阅读!如果您对AI的更多资讯感兴趣,可以查看更多AI文章:GPTNB

OpenAI o1智商120,还是被陶哲轩称为「平庸的研究生」,但实力究竟如何?

https://www.gptnb.com/2024/09/18/2024-09-17-auto5-5j2kxH/

作者

ByteAILab

发布于

2024-09-18

更新于

2025-03-21

许可协议