大模型+蒙特卡洛树搜索,一招让LLaMa-3 8B奥数水平直逼GPT-4
通过算法层面的创新,未来大语言模型做数学题的水平会不断地提高。
这几天,17 岁中专生姜萍在 2024 阿里巴巴全球数学竞赛预选赛中取得全球第 12 名的新闻刷了屏。
而同时,AI 挑战赛的成绩显示,在所有 563 支 AI 参赛队伍中,最高分 34 分,平均分 18 分,赶上了人类选手平均水平。…
详见原文。
不过,在将 MCTS 与 LLM 集成过程中存在一些技术挑战。传统的 MCTS 策略可能与 LLM 输出的随机性和生成性不太吻合,后者通常涉及无限、连续的潜在动作空间。这种不一致需要在 MCTS 框架内采用定制的期望计算和反向传播方法,以更好地适应 LLM 的特有属性。…
方法概览
MCTSr 架构图如图 1 所示:…
详见原文。
感谢阅读!如果您对AI的更多资讯感兴趣,可以查看更多AI文章:GPTNB。
大模型+蒙特卡洛树搜索,一招让LLaMa-3 8B奥数水平直逼GPT-4