2024-06-22发表2025-03-21更新 ByteAILab 7 分钟读完 (大约1033个字)

用技术望远镜看国内大模型：文心闪耀双榜领跑

中国大模型应用，正在进入“可观测期”。
《中国大模型中标项目监测报告（2024年5月）》中显示，截至5月，中国大模型的相关中标金额已经超过2023年全部中标项目的披露金额。

在大模型全面落地四处开花的同时，大模型正摆脱“不可观测”状态，过去由于大量大模型应用在B端，信息相对封闭，对于产业来说，他们很难清晰获知大模型技术水平、擅长领域、落地能力，无形中增加了智慧化转型的决策成本。
随着大模型技术评测体系的逐渐成熟，我们仿佛拥有了天文望远镜，可以在群星闪耀中，找到那颗最耀眼的星。

最近，国际权威机构IDC发布了《中国大模型市场主流产品评估，2024》，智源研究院打造的FlagEval天秤大模型评测平台也发布了最新一期模型评测排行榜单，两项评测中百度文心大模型实现了双榜夺魁。
“望远镜”背后技术评价机制
我们可以简单看看，这两架“天文望远镜”分别采用了哪些评价机制。
IDC的评估分为基础能力和应用能力，其中基础方面涉及问答、推理、创作、数学、代码等能力，应用方面既考验toC通用场景，也考验金融、零售、法律等toB细分场景。
尽管有GPT-4这样的有力对手，文心一言仍然在七大维度全面领先。
智源研究院打造的FlagEval天秤大模型测评平台发布于2023年，面向视频、语音、多模态等多个领域，在FlagEval大语言模型评测体系当前包含6大评测任务，近30个评测数据集，超10万道评测题目。
在闭源对话模型榜单中，文心大模型4.0以89.72的综合评分排名第一，OpenAI的GPT-4o等位列其后。
可见不论是从全领域能力角度进行评估，还是考察至关重要的大语言水平，文心一言毫无疑问都是中文大模型的榜首，是星海中光芒最耀眼的一颗。
技术之光
抬头仰望星空时，我们看到的，其实是星星几年，甚至几十几百年以前留下的掠影。
同样，想要让大模型从“不可观测”变为“可观测”，除了对当下的技术能力进行评测，我们也要回溯光芒的源头，也就是大模型的技术内核。
从文心大模型来看，这种技术之光可以分为两个层面：
第一层，是技术投入的“原生光芒”。
百度对于深度学习的探索挖掘，包括对AI技术的应用，已经有十数年之久。在大模型热还未被掀起的2019年，百度就打造了第一代文心大模型体系，从而才有了建立在文心大模型之上的文心一言。
如今经过数次迭代，文心大模型在理解、生成、逻辑、记忆四大能力让其他厂商难以望其项背。IDC报告中就显示，在数学类和代码类等考验模型逻辑、推理等能力的评测中，百度文心大模型体现出了强大的体系化思维、逻辑思维和抽象思维能力。
能力迭代背后，是文心大模型有条不…

Access the full article here.

感谢阅读！如果您对AI的更多资讯感兴趣，可以查看更多AI文章：GPTNB。

用技术望远镜看国内大模型：文心闪耀双榜领跑

https://www.gptnb.com/2024/06/22/2024-06-21-auto4-D2bG69/

作者

ByteAILab

发布于

2024-06-22

更新于

2025-03-21

用技术望远镜看国内大模型：文心闪耀双榜领跑

Access the full article here.

作者

发布于

更新于

许可协议

喜欢这篇文章？打赏一下作者吧

链接

分类

最新文章

归档

标签

订阅更新

用技术望远镜看国内大模型：文心闪耀 双榜领跑

Access the full article here.

作者

发布于

更新于

许可协议

喜欢这篇文章？打赏一下作者吧

链接

分类

最新文章

归档

标签

订阅更新

用技术望远镜看国内大模型：文心闪耀双榜领跑