2024-06-18发表2025-03-21更新 ByteAILab 2 分钟读完 (大约289个字)

大模型+蒙特卡洛树搜索，一招让LLaMa-3 8B奥数水平直逼GPT-4

通过算法层面的创新，未来大语言模型做数学题的水平会不断地提高。

这几天，17 岁中专生姜萍在 2024 阿里巴巴全球数学竞赛预选赛中取得全球第 12 名的新闻刷了屏。

而同时，AI 挑战赛的成绩显示，在所有 563 支 AI 参赛队伍中，最高分 34 分，平均分 18 分，赶上了人类选手平均水平。…

不过，在将 MCTS 与 LLM 集成过程中存在一些技术挑战。传统的 MCTS 策略可能与 LLM 输出的随机性和生成性不太吻合，后者通常涉及无限、连续的潜在动作空间。这种不一致需要在 MCTS 框架内采用定制的期望计算和反向传播方法，以更好地适应 LLM 的特有属性。…

方法概览

MCTSr 架构图如图 1 所示：…

详见原文。

感谢阅读！如果您对AI的更多资讯感兴趣，可以查看更多AI文章：GPTNB。

大模型+蒙特卡洛树搜索，一招让LLaMa-3 8B奥数水平直逼GPT-4

ByteAILab

2024-06-18

2025-03-21