大模型+蒙特卡洛树搜索,一招让LLaMa-3 8B奥数水平直逼GPT-4

通过算法层面的创新,未来大语言模型做数学题的水平会不断地提高。

这几天,17 岁中专生姜萍在 2024 阿里巴巴全球数学竞赛预选赛中取得全球第 12 名的新闻刷了屏。


而同时,AI 挑战赛的成绩显示,在所有 563 支 AI 参赛队伍中,最高分 34 分,平均分 18 分,赶上了人类选手平均水平。…

详见原文

不过,在将 MCTS 与 LLM 集成过程中存在一些技术挑战。传统的 MCTS 策略可能与 LLM 输出的随机性和生成性不太吻合,后者通常涉及无限、连续的潜在动作空间。这种不一致需要在 MCTS 框架内采用定制的期望计算和反向传播方法,以更好地适应 LLM 的特有属性。…

方法概览

MCTSr 架构图如图 1 所示:…

详见原文

感谢阅读!如果您对AI的更多资讯感兴趣,可以查看更多AI文章:GPTNB

大模型+蒙特卡洛树搜索,一招让LLaMa-3 8B奥数水平直逼GPT-4

https://www.gptnb.com/2024/06/18/2024-06-17-auto5_2-asC1a3/

作者

ByteAILab

发布于

2024-06-18

更新于

2025-03-21

许可协议