2024-07-30发表2025-03-21更新 ByteAILab 7 分钟读完 (大约1012个字)

Galileo发布新的幻觉指数

Galileo发布了最新的“幻觉指数”，这是该公司第二次举办的指数活动。{ width=60% }

该指数排名了排名前22位领先的语言模型，将Anthropic的Claude 3.5 Sonnet列为在所有任务上表现最好的模型。

Galileo是企业生成式人工智能开发领域的领导者，今天宣布推出最新的幻觉指数，这是一个以检索增强生成（RAG）为重点的评估框架，评估了22个领先的生成式人工智能（Gen AI）大型语言模型（LLMs），这些模型来自OpenAI、Anthropic、Google和Meta等品牌。

今年的指数框架新增了11个模型，代表了过去8个月中开源和闭源LLMs迅速增长的趋势。随着各大品牌竞相创建更大、更快、更准确的模型，幻觉仍然是部署可投入生产的Gen AI产品的主要障碍。

最佳表现的LLM是Anthropic的Claude 3.5 Sonnet。这款闭源模型在短、中、长上下文场景下超过了竞争对手的表现。Anthropic的Claude 3.5 Sonnet和Claude 3 Opus在各个类别中持续接近完美分数，击败了去年的获奖者GPT-4o和GPT-3.5，特别是在较短的上下文场景中表现出色。

成本最佳表现的模型是Google的Gemini 1.5 Flash。由于在所有任务上的出色表现，这款Google模型在成本方面排名最佳。

最佳开源模型是阿里巴巴的Qwen2-72B-Instruct。这款开源模型在短和中等上下文中表现最佳。

Galileo的首席执行官兼联合创始人Vikram Chatterji表示：“在当今快速发展的人工智能领域，开发人员和企业面临一个关键挑战：如何在平衡成本、准确性和可靠性的情况下利用生成式人工智能的力量。目前的基准往往基于学术用例，而非真实世界的应用。我们的新指数旨在通过在需要LLMs检索数据的真实用例中测试模型来解决这一问题，这在企业人工智能实施中是一个常见做法。”

主要发现和趋势：

开源正在缩小差距：像Claude-3.5 Sonnet和Gemini 1.5 Flash这样的闭源模型仍然是排名前几位的模型，得益于专有训练数据，但类似Qwen1.5-32B-Chat和Llama-3-70b-chat等开源模型正迅速缩小差距，改进了幻觉表现，并且具有比闭源对手更低的成本壁垒。
长上下文长度的整体改善：当前的RAG LLMs，如Claude 3.5 Sonnet、Claude-3-opus和Gemini 1.5 pro 001 在扩展上下文长度方面表现特别出色，而不会失去质量或准确性，反映了在模型训练和架构方面所取得的进展。
大模型并非始终最佳选择：在某些情况下，较小的模型表现优于更大的模型。例如，Gemini-1.5-flash-001胜过了更大的模型，这表明在模型设计中的效率有时可能胜过规模。
从国内到全球关注：来自美国以外的LLMs，如Mistral的Mistral-large和阿里巴巴的qwen2-72b-instruct，正在成为该领域新兴的参与者，并继续增长其知名度，代表着创造高效语言模型的全球推动。
有待改进：虽然谷歌的开源Gemma-7b表现最差，但他们的闭源Gemini 1.5 Flash模型始终位居前列。

查看Galileo的完整幻觉指数结果，请点击这里。

感谢阅读！如果您对AI的更多资讯感兴趣，可以查看更多AI文章：GPTNB。

Galileo发布新的幻觉指数

https://www.gptnb.com/2024/07/30/2024-07-29-auto3-JlGfai/

作者

ByteAILab

发布于

2024-07-30

更新于

2025-03-21

Galileo发布新的幻觉指数

查看Galileo的完整幻觉指数结果，请点击这里。

作者

发布于

更新于

许可协议

喜欢这篇文章？打赏一下作者吧

链接

分类

最新文章

归档

标签

订阅更新