智能体首次达到Kaggle Grandmaster水平,华为用结构化推理补齐思维链短板
前些时日,AI 大模型开始掌握操作计算机的能力,但整体而言,它们与物理世界互动的能力仍处于早期阶段。为了提高 LLM 在复杂的现实世界中的表现,研究者们提出了各种提示策略来提升大模型的推理和规划能力,比如思维链、思维树和思维图谱。
这些进步与工具集成一起,推动着通用 AI 智能体的发展,让它们现在已经能够用 LLM 输出的决策策略来解决序列决策问题(不过依然还相对简单)。在现实世界中,一个难题的解决方案往往都不是孤立存在的,而需要系统性的方法。这就促使人们开始研究如何让 LLM 通过顺序或并行模块处理智能体任务,从而动态地、分步骤地解决问题。近日,华为诺亚方舟实验室、伦敦大学学院(UCL)和达姆施塔特工业大学的一个研究团队在这个研究方向上做出了自己的贡献。他们采用第一性原理方法,将数据的分析、处理和预测(即数据科学)作为 LLM 与现实世界环境和外部系统交互的核心和可迁移技能,得到了一种利用 LLM 解决系统数据科学任务复杂性的新方法。然后他们基于此开发了智能体 Agent K v1.0,并让其参加了多模态 Kaggle 竞赛。最终 Agent K v1.0 获得了相当于 6 金 3 银 7 铜的成绩,成为首个达到 Kaggle Grandmaster level 1 的 AI 智能体。
- 论文标题:Large Language Models Orchestrating Structured Reasoning Achieve Kaggle Grandmaster Level
- 论文地址:https://arxiv.org/pdf/2411.03562
研究动机
这项研究有三个研究动机。
第一,数据科学的目的是从结构化和非结构化数据中提取见解和知识,从而解决各种复杂问题。这需要系统级的方法,需要自动化和优化来适应具体的任务目标。
举个例子,在 Kaggle 数据科学竞赛中(如图 1 所示),数据科学家需要遵循一个结构化的工作流程:收集、清理、预处理和标准化数据,创建数据加载器以实现高效管理,生成关键评估指标,以及开发自定义模型。然后,这些见解和预测可以为决策和优化提供信息。因此,为了解决这些工作流程,需要数据科学智能体将任务分解为子问题并与各种子系统交互以实现指定目标。
第二,数据能让 LLM 感知和理解外部环境(物理和虚拟皆可)。LLM 智能体可通过收集、清理和分析这些数据来获得有意义的见解并做出明智的决策。数据和动作之间的这种基本联系可将计算推理与有形的现实世界后果联系起来。
第三,数据科学对企业而言至关重要。数据科学可将原始数据转换成可行动的见解,并由此提升效率和竞争力,进而推动创新。因此,据 Grand View Research 预计,到 2031 年,全球对数据科学的投资将达到约 7400 亿美元。数据科学智能体可通过生成代码来自动执行数据清理、建模和预测等任务,从而扩大这种影响,使组织能够扩展其数据驱动的决策,以最大化回报和利润。
结构化推理造就强大数据科学智能体
…
竞争性数据科学基准
当前的数据科学智能体缺乏竞争性基准测试,这限制了它们在专业领域的表现。为此,该团队也做出了自己的贡献:基于 Kaggle 竞赛构建了一个多样化且竞争性的数据科学基准,而 Kaggle 提供了 27K 个多样化数据集、110 万个笔记本、超过 7.7K 个预训练机器学习模型和大约 27K 场比赛。该基准支持在一个透明的排行榜上与人类参与者进行直接比较并涵盖计算机视觉、自然语言处理、时间序列和表格数据等多种任务,支持多种模态。
下表则是基于 Kaggle 的指南和风格构建的 Kaggle 进展系统。⋆ (Top 10 + 0.2 %) 是指竞赛每增加 500 个参赛队伍,就会额外给出一枚金牌。举个例子,如果一个竞赛有 500 个参赛队伍,则会给 11 团队授予金牌。而如果竞赛队伍有 5000 个,则金牌数会达到 20。
实验和结果
Agent K 表现如何?终究还需看实验结果。该团队严格测试了 Agent K v1.0(基础模型使用了 Qwen-2.5 72B)实现完全自动化的能力以及性能。在自动化方面,他们评估了新系统能否有效地直接根据 Kaggle URL 设置任务。结果,在跨多个领域自动执行任务方面,该系统实现了 92.5% 的准确度,展示了其完全自动化地实现复杂设置的能力。
在性能方面,在多模态挑战赛中,该团队的方法实现了相当于 6 金 3 银 7 铜的成绩(共 65 场竞赛),成为了首个达到 Kaggle Grandmaster level 1 的方法。下图展示了 Agent K v1.0 在各个任务上的性能表现。
此外,他们还测量了 Agent K v1.0 与人类参与者的 Elo-MMR 评分。结果表明,在由 5856 名参赛者组成的竞赛池中,Agent K v1.0 排名前 38%。
实验详情和更多实验结果以及相关讨论请访问原论文。
感谢阅读!如果您对AI的更多资讯感兴趣,可以查看更多AI文章:GPTNB。
智能体首次达到Kaggle Grandmaster水平,华为用结构化推理补齐思维链短板