2024-09-11发表2025-03-21更新 ByteAILab 10 分钟读完 (大约1555个字)

现在的大模型榜单，真就没一个可信的

文章来源：数字生命卡兹克

图片来源：由GPTNB生成

现在的大模型榜单上，真的都是水分。
全是作弊的考生，真的。

上周，AI圈有个很炸裂的大模型发布，在全网引起了山呼海啸，一众从业者和媒体尊称它为开源新王。
就是 Reflection 70B。

Reflection 70B

在每项基准测试上都超过了 GPT-4o，还只用70B的参数，就击败了405B的Llama 3.1，模型中还有一个叫「Reflection-Tuning」的技术，能让模型能够在最终回复之前，先识别自己有没有错误，如果有，纠正以后再回答。

Reflection-Tuning

其实这个东西当时我就很存疑，因为在我的理解里，这玩意，就是个CoT，就是个纯Prompt，一个Prompt把70B模型直接带的螺旋升天？
你这玩意，真要是能做到，奥特曼就真的直接原地给你磕头了。。。

最关键的是，还有一个很离谱的点，这个模型就两个人做，而且，从一拍即合、到找数据集、到模型微调完成并正式发布，一共就花了3周。
这效率，这速度，直接卷的螺旋升天，国内大厂速度没卷到这个地步…

直到昨天，发现这模型底都快被人扒掉了。
模型结果造假，提供给开发者的API，还是造假。

先是跑分评测上面，这是他们老板Matt自己发出来的跑分结果，勇夺第一。

Matt跑分结果

看这个结果，你就说屌不屌吧，拳打Claude3.5，脚踢GPT-4o，还把Gemini1.5 Pro和Llama3.1 405B给摁在地上摩擦。
你很难想象这只是一个两个人花三周训的70B的模型能干出来的事。

直到7号，Artificial Analysis用他们自己的标准评测集跑了一通，发现这事不对啊，你这么多项评测集都登顶了，你应该很牛逼才对啊，这得分什么情况？？？

Artificial Analysis评测结果

他们是这么说的：

“哥们，我们测完了咋感觉你比Llama3.1 70B更拉了呢？老实说，你是不是在骗兄弟们。”

Matt看到了以后，开始说卧槽不对劲啊，我们内部是好的啊，怎么你们测试结果这么烂？

内部结果正常

花了好半天，Matt终于说，哦是 Hugging Face 权重出现了问题，我也不知道咋回事，你们等一等。

说完还不忘凡尔赛一下，说：

乞求等待

翻译一下就是：我们是在太太太太火啦，你们再等等啊，乖。

直到今天凌晨，最骚的事情来了，Matt说，我们终于解决了问题，开放了新的API。

新的API

他们提供了一个私有接口，说这个才是Reflection 70B完全体。

大家一测，卧槽，果然牛逼，牛逼炸了。

真的好像比GPT4o还有那些大厂的模型强哎。

就差点直接给Reflection 70B开香槟了。

2个人，3周时间，创了AI行业的奇迹。

但是大家香槟刚开一半，就被生生的摁回去了。

大家发现，这个所谓的“Reflection 70B”的API，怎么跟Claude3.5回复的东西，一模一样。。。

API回复

于是有人，又做了一个验证测试，他把所有API的参数全部设为10个Token、0温度、top_k 1，然后让大模型，重复entsprechend这个词20次，因为大模型对token的计算都不太一样，所以其实10个token限制输出的内容也不太一样，你既然说你是基于Llama3.1微调的，那你肯定得跟Llama3.1输出内容一样对吧。

但是，结果直接让人大跌眼镜。

验证测试结果

好兄弟，你怎么，跟Claude的长度一样，你到底是Llama3.1生出的Reflection 70B，还是披着狗皮的Claude啊？？？

更狗的是，他们居然，还把Claude设成了屏蔽词，在用户的对话中，一旦你发Claude，就直接剔除。

屏蔽Claude

骚啊，实在是太骚了。。。

这下，所有AI行业的人，都知道，Reflection 70B就是一场彻头彻尾的闹剧。

这个闹剧背后，我觉得反应出了现在整个AI领域，一个非常诡异的现象。

刷榜。
回到整个事情的起点，就是模型能力的强度，和榜单。
正是因为Reflection 70B在评测集上屠榜了，秒杀Claude3.5和GPT4o，才让大家如此兴奋。

但是结果大家发现，卧槽你怎么就做那些特定评测集的题目那么牛逼？换个别的题就直接变废物了？不是细狗你行不行啊？
直接对着答案抄，还不行，那不扯淡吗。

大模型目前的评测体系，从来就不复杂，就是考试，纯纯的考试。
评测数据集相当于试卷，模型就是正在考试的学生，最后交卷，看谁的分高。
听…

感谢阅读！如果您对AI的更多资讯感兴趣，可以查看更多AI文章：GPTNB。

现在的大模型榜单，真就没一个可信的

https://www.gptnb.com/2024/09/11/2024-09-10-auto4-Be1hIU/

作者

ByteAILab

发布于

2024-09-11

更新于

2025-03-21

现在的大模型榜单，真就没一个可信的

大模型目前的评测体系，从来就不复杂，就是考试，纯纯的考试。
评测数据集相当于试卷，模型就是正在考试的学生，最后交卷，看谁的分高。
听…

作者

发布于

更新于

许可协议

喜欢这篇文章？打赏一下作者吧

链接

分类

最新文章

归档

标签

订阅更新

现在的大模型榜单，真就没一个可信的

大模型目前的评测体系，从来就不复杂，就是考试，纯纯的考试。评测数据集相当于试卷，模型就是正在考试的学生，最后交卷，看谁的分高。听…

作者

发布于

更新于

许可协议

喜欢这篇文章？打赏一下作者吧

链接

分类

最新文章

归档

标签

订阅更新

大模型目前的评测体系，从来就不复杂，就是考试，纯纯的考试。
评测数据集相当于试卷，模型就是正在考试的学生，最后交卷，看谁的分高。
听…