Noam Brown早已预示o1强大推理能力,演讲深度解析AI推理研究脉络
不久之前,OpenAI 发布了 o1 系列模型,其强大的推理能力让我们看见了 AI 发展的新可能。近日,OpenAI 著名研究科学家 Noam Brown 一份 5 月的演讲上线网络,或可揭示 o1 背后的研究发展脉络。
在这个题为「关于 AI 规划力量的寓言:从扑克到外交」的演讲中, Brown 介绍了扑克、围棋和外交等游戏领域的研究突破,并尤其强调了搜索/规划算法在这些成就中的关键作用。之后,他也指出了搜索/规划研究在改进机器学习模型方面的潜在未来。
Noam Brown,如果你还不熟悉这个名字:他是 OpenAI 的一位著名研究科学家,主攻方向是推理和自博弈,曾参与创造了首个在双玩家和多玩家无限注德州扑克上击败人类顶级职业玩家的 AI:Libratus 和 Pluribus。其中 Pluribus 曾被 Science 评选为 2019 年十大科学突破之一。此外,他也领导开发了 Cicero 系统,这是首个在自然语言策略外交游戏 Diplomacy 上达到人类水平的 AI。凭借在 AI 领域的卓越贡献,他获得过马文·明斯基奖章(Marvin Minsky Medal)等许多奖项。
视频地址:https://www.youtube.com/watch?v=eaAonE58sLU
来自 Paul G. Allen School
机器之心详细梳理了 Noam Brown 的演讲内容,以飨读者:
演讲开篇,Brown 谈到了自己刚开始研究生生涯的时候。那是在 2012 年,他开始研究打扑克的 AI。当时人们已经研究了扑克 AI 多年时间。很多人的感觉就是系统的问题已经解决,剩下的问题就是规模扩展(scaling)了。
下图左下展示了那几年模型参数量的变化情况。
那几年,各个研究扑克 AI 的实验室都会训练更大的新模型来互相竞赛。这就是当时的年度计算机扑克竞赛。
什么意外,每一年的新模型都会变得比之前的模型更强大。
2014 年时,Brown 与其导师一起开发了当前最强大的扑克 AI,取得了竞赛第一名。那时候他们开始
感谢阅读!如果您对AI的更多资讯感兴趣,可以查看更多AI文章:GPTNB。
Noam Brown早已预示o1强大推理能力,演讲深度解析AI推理研究脉络