o1 研发团队完整采访:Ilya早期曾参与,灵感源于AlphaGo
自从 OpenAI 的 o1 问世以来,它强大的推理能力就承包了 AI 圈近期的热搜。不需要专门训练,它就能直接拿下数学奥赛金牌,甚至可以在博士级别的科学问答环节上超越人类专家。
展示 o1 实力的 demo,我们看了不少,评估 o1 表现的评测,全网比比皆是,关于 o1 技术路线的讨论也如火如荼,引发了广泛的关注和深入的思考。
不过 o1 背后的故事,还鲜为人知,那些在幕后默默付出的团队成员们,他们的故事同样值得被讲述和铭记。
刚刚,OpenAI 发布了 o1 研发团队的完整访谈,为我们揭秘了 o1 的「成长历程」。o1 如何一步步蜕变,最终成为一个「智商高达 120」的非凡存在?他们是将强化学习和监督学习两种范式结合起来的?这背后是无数的突破与挑战,OpenAI o1 的研究人员与 OpenAI 研究团队的负责人 Bob McGrew 畅谈了研发过程中的「Aha moments」—— 那些破解瓶颈、灵感迸发、豁然开朗的瞬间。
在访谈中,他们揭秘了 o1 团队的关键人物,最早由 Jakub Pachocki 进行了一些探索,后来又和Łukasz Kaiser (Transformer 作者之一)和 Ilya Sutskever 进行了早期的探索。这可能也是为什么虽然 Ilya 已经离职,但仍出现在贡献者名单前列的理由。
o1 项目的关键时刻是 Jerry Tworek 整合了这些内容,并继续推动项目。
原视频链接:https://www.youtube.com/watch?v=tEzs3VHyBDM
以下是对访谈主要内容摘录:
什么是 o1?
Hyung Won Chung:我们将使用新名称 o1 推出一系列新模型。这是为了强调这样一个事实:与 GPT-4 等以前的模型相比,您在使用 o1 时可能会感到不同。o1 是个推理模型,它在回答你的问题之前会做更多思考。我们将发布两个模型:o1 preview,也就是 o1 的内容预览版,还有采用了与 o1 相似的训练框架、更小更快的 o1 mini。希望你喜欢我们的新命名方案 o1。
什么是推理?
Giambattista Parascandolo:可以这么理解:对于一些需要立即回答的简单问题,例如,「意大利的首都是哪里?」,不用想太多,就知道答案是罗马。但是如果想要解一个复杂的谜题、想精心策划一份商业企划书、或者想写小说,那可能需要很多思考。想得越多,可能成果越好。因此,可以说推理是一种把思考时间转化为更好成果的能力。
你们研究 o1 多久了?
Jakub Pachocki:在 OpenAI 的初创时期,我们深受 AlphaGo 的启发,意识到了深度强化学习的巨大潜力。因此,我们在这方面投入了大量研究,在数据和机器人技术方面取得了很好的扩展效果。我们一直在思考如何在通用领域中应用强化学习,以创造出强大的人工智能。GPT 的成功,让我们见证了扩展和监督学习的范式所带来的惊人结果。从那时起,我们就一直在思考如何将这两种不同的范式结合起来。
Mark Chen:很难确切指出 o1 是从哪个具体的时刻开始的。最早和 Yakob 进行了一些探索,后来又和Łukasz 和 Ilya 进行了早期的探索。关键时刻是 Jerry 一起整合了这些内容,并由 Jerry 来推动项目。
你们有没有过「Aha Moment」?
Jerry Tworek:我们训练了 GPT-2、GPT-3、GPT-4,模型刚出炉时,我们开始与模型对话,人们都说:「哇,这个模型真的很棒。」在训练过程中,有一个特定的时刻,我们投入了更多的计算资源,并训练模型生成连贯的思维链。然后我们看到:「哇,这看起来和以前真的有显著的不同。」对我来说,那就是「Aha Moment」。
Trapit Bansal:与此相关的另一个发现是。当我们开始考虑要训练一个推理模型时,我最先想到的方法就是,可以让人类写下他们的思维过程,然后以此进行训练。我的「Aha Moment」是当我们发现,通过使用强化学习来训练模型生成和打磨它自己的思维链,效果竟然比让人类为其写下思细链更好。我们意识到可以真正扩展这个方法,并且专家模型也可以通过这种方式进行推理。
…
这个项目中有没有哪些部分是必须的,但人们可能没有意识到它有多重要?
Łukasz Kondraciuk:我认为,建立实验室规模的可靠基础设施,用来运行我们最大、最重要的模型训练平台以及进行研究实验,虽然不像研究本身那么令人兴奋,但却至关重要,对整个项目的成功产生了巨大影响。
Jerry Tworek:我觉得 OpenAI 在如何构建其研究方面有一些特别之处,我们同样重视算法进步和建立可靠的大规模系统,以及创建用于训练这些模型的数据集。我为 OpenAI 这一点感到非常自豪。
Jakub Pachocki:每次我们将某件事扩大一个数量级时,都会遇到一组新的问题 —— 包括算法和基础设施方面的问题 ——OpenAI 无疑已经发展出了同时解决这两个方面问题的强大能力。
O1 Mini 是如何诞生的?
Hongyu Ren:我们的动机是希望将 o1 系列带给更多的用户,并降低成本。因此,我们创建了 o1 Mini,它的设计目的是展示整个 o1 管道或框架的简化版本。我们让它成为一个推理专家,它可能不一定知道你最喜欢的名人的生日,但它确实能够非常有效地理解如何进行推理。它比我们之前最好的推理模型要聪明得多,并且几乎与我们最好的模型 o1 持平。
完整访谈视频内容,请查看原视频。
感谢阅读!如果您对AI的更多资讯感兴趣,可以查看更多AI文章:GPTNB。
o1 研发团队完整采访:Ilya早期曾参与,灵感源于AlphaGo