用技术望远镜看国内大模型:文心闪耀 双榜领跑

中国大模型应用,正在进入“可观测期”。
《中国大模型中标项目监测报告(2024年5月)》中显示,截至5月,中国大模型的相关中标金额已经超过2023年全部中标项目的披露金额。


在大模型全面落地四处开花的同时,大模型正摆脱“不可观测”状态,过去由于大量大模型应用在B端,信息相对封闭,对于产业来说,他们很难清晰获知大模型技术水平、擅长领域、落地能力,无形中增加了智慧化转型的决策成本。
随着大模型技术评测体系的逐渐成熟,我们仿佛拥有了天文望远镜,可以在群星闪耀中,找到那颗最耀眼的星。

最近,国际权威机构IDC发布了《中国大模型市场主流产品评估,2024》,智源研究院打造的FlagEval天秤大模型评测平台也发布了最新一期模型评测排行榜单,两项评测中百度文心大模型实现了双榜夺魁。
“望远镜”背后技术评价机制
我们可以简单看看,这两架“天文望远镜”分别采用了哪些评价机制。
IDC的评估分为基础能力和应用能力,其中基础方面涉及问答、推理、创作、数学、代码等能力,应用方面既考验toC通用场景,也考验金融、零售、法律等toB细分场景。
尽管有GPT-4这样的有力对手,文心一言仍然在七大维度全面领先。
智源研究院打造的FlagEval天秤大模型测评平台发布于2023年,面向视频、语音、多模态等多个领域,在FlagEval大语言模型评测体系当前包含6大评测任务,近30个评测数据集,超10万道评测题目。
在闭源对话模型榜单中,文心大模型4.0以89.72的综合评分排名第一,OpenAI的GPT-4o等位列其后。
可见不论是从全领域能力角度进行评估,还是考察至关重要的大语言水平,文心一言毫无疑问都是中文大模型的榜首,是星海中光芒最耀眼的一颗。
技术之光
抬头仰望星空时,我们看到的,其实是星星几年,甚至几十几百年以前留下的掠影。
同样,想要让大模型从“不可观测”变为“可观测”,除了对当下的技术能力进行评测,我们也要回溯光芒的源头,也就是大模型的技术内核。
从文心大模型来看,这种技术之光可以分为两个层面:
第一层,是技术投入的“原生光芒”。
百度对于深度学习的探索挖掘,包括对AI技术的应用,已经有十数年之久。在大模型热还未被掀起的2019年,百度就打造了第一代文心大模型体系,从而才有了建立在文心大模型之上的文心一言。
如今经过数次迭代,文心大模型在理解、生成、逻辑、记忆四大能力让其他厂商难以望其项背。IDC报告中就显示,在数学类和代码类等考验模型逻辑、推理等能力的评测中,百度文心大模型体现出了强大的体系化思维、逻辑思维和抽象思维能力。
能力迭代背后,是文心大模型有条不…

Access the full article here.

感谢阅读!如果您对AI的更多资讯感兴趣,可以查看更多AI文章:GPTNB

用技术望远镜看国内大模型:文心闪耀 双榜领跑

https://www.gptnb.com/2024/06/22/2024-06-21-auto4-D2bG69/

作者

ByteAILab

发布于

2024-06-22

更新于

2025-03-21

许可协议