AI 的「phone use」竟是这样练成的,清华、智谱团队发布 AutoGLM 技术报告
在 CNCC2024 大会上,智谱推出了 GLM 第一个产品化的智能体(Agent)——AutoGLM,只需接收简单的文字/语音指令,它就可以模拟人类操作手机,进而帮你:
- 在微信上「给老板的朋友圈点赞并写评论」,
- 在淘宝上「购买某一款历史订单产品」,
- 在携程上预订酒店,
- 在 12306 上购买火车票,
- 在美团上点个外卖,
- ……
另外,AutoGLM 也可以对网页进行操作,比如“检索知识图谱最新的学术期刊发表内容且只看北大核心”。
AutoGLM 的出现,让 AI「phone use」与网页操作不再是设想。
日前,智谱和清华团队在预印本网站 arXiv 上发布了 AutoGLM 的技术报告。
技术报告主要内容如下:
- AutoGLM 是 ChatGLM 系列中的一个新产品,旨在作为基础智能体,通过图形用户界面(GUI)自主控制数字设备,实现更进一步的 AI「phone use」。
- 研究主要贡献包括:设计了一个「基础智能体解耦合中间界面」,有效解耦规划和执行行为;开发了一种「自进化在线课程强化学习框架」,实现了鲁棒的错误恢复和性能提升。
- 在安卓设备控制方面,AutoGLM 在 AndroidLab(VAB-Mobile)上的成功率为 36.2%,在流行 APP 的常见任务上的成功率为 89.7%。揭示了基础智能体技术在未来人机交互中的广泛潜力。
AutoGLM 是如何炼成的?
在开发过程中,AutoGLM 团队采用了多项先进技术,以克服基础模型在真实环境中执行任务的挑战。
- 预训练。通常,互联网上的文本语料库中缺乏智能体相关的数据,使得 LLM 难以有效地充当智能体。此外,现有的多模态大模型(LMM)预训练主要集中于“视觉指令微调”,未能充分从序列多模态数据中学习。因此,合理利用在线数据中的弱监督决策信号来进行预训练能够提供帮助。…
评估结果
安卓端评估
他们在 AndroidLab(即 VAB-Mobile)和常见的安卓 APP 上的高频任务中评估了 AutoGLM 的能力。
AndroidLab 是一个互动式安卓基准测试环境,支持系统性评估,涵盖了一些离线可部署的英语 APP。相比于其他如 AITW 的现有基准测试,其互动性允许对安卓智能体进行更具实际意义的评估并通过强化学习进行改进。他们评估了代表性的专有 LLM/LMM API、在提供的行为克隆数据上微调的开放模型以及 AutoGLM。
结果表明,AutoGLM 在 AndroidLab 上的成功率为 36.2%,在所有对比的智能体中表现最佳。
未来,AutoGLM 将进一步完善其模型和应用场景,加速智能助手在数字化生活中的普及。
感谢阅读!如果您对AI的更多资讯感兴趣,可以查看更多AI文章:GPTNB。