Galileo发布新的幻觉指数
Galileo发布了最新的“幻觉指数”,这是该公司第二次举办的指数活动。{ width=60% }
该指数排名了排名前22位领先的语言模型,将Anthropic的Claude 3.5 Sonnet列为在所有任务上表现最好的模型。
Galileo是企业生成式人工智能开发领域的领导者,今天宣布推出最新的幻觉指数,这是一个以检索增强生成(RAG)为重点的评估框架,评估了22个领先的生成式人工智能(Gen AI)大型语言模型(LLMs),这些模型来自OpenAI、Anthropic、Google和Meta等品牌。
今年的指数框架新增了11个模型,代表了过去8个月中开源和闭源LLMs迅速增长的趋势。随着各大品牌竞相创建更大、更快、更准确的模型,幻觉仍然是部署可投入生产的Gen AI产品的主要障碍。
最佳表现的LLM是Anthropic的Claude 3.5 Sonnet。这款闭源模型在短、中、长上下文场景下超过了竞争对手的表现。Anthropic的Claude 3.5 Sonnet和Claude 3 Opus在各个类别中持续接近完美分数,击败了去年的获奖者GPT-4o和GPT-3.5,特别是在较短的上下文场景中表现出色。
成本最佳表现的模型是Google的Gemini 1.5 Flash。由于在所有任务上的出色表现,这款Google模型在成本方面排名最佳。
最佳开源模型是阿里巴巴的Qwen2-72B-Instruct。这款开源模型在短和中等上下文中表现最佳。
Galileo的首席执行官兼联合创始人Vikram Chatterji表示:“在当今快速发展的人工智能领域,开发人员和企业面临一个关键挑战:如何在平衡成本、准确性和可靠性的情况下利用生成式人工智能的力量。目前的基准往往基于学术用例,而非真实世界的应用。我们的新指数旨在通过在需要LLMs检索数据的真实用例中测试模型来解决这一问题,这在企业人工智能实施中是一个常见做法。”
主要发现和趋势:
- 开源正在缩小差距:像Claude-3.5 Sonnet和Gemini 1.5 Flash这样的闭源模型仍然是排名前几位的模型,得益于专有训练数据,但类似Qwen1.5-32B-Chat和Llama-3-70b-chat等开源模型正迅速缩小差距,改进了幻觉表现,并且具有比闭源对手更低的成本壁垒。
- 长上下文长度的整体改善:当前的RAG LLMs,如Claude 3.5 Sonnet、Claude-3-opus和Gemini 1.5 pro 001 在扩展上下文长度方面表现特别出色,而不会失去质量或准确性,反映了在模型训练和架构方面所取得的进展。
- 大模型并非始终最佳选择:在某些情况下,较小的模型表现优于更大的模型。例如,Gemini-1.5-flash-001胜过了更大的模型,这表明在模型设计中的效率有时可能胜过规模。
- 从国内到全球关注:来自美国以外的LLMs,如Mistral的Mistral-large和阿里巴巴的qwen2-72b-instruct,正在成为该领域新兴的参与者,并继续增长其知名度,代表着创造高效语言模型的全球推动。
- 有待改进:虽然谷歌的开源Gemma-7b表现最差,但他们的闭源Gemini 1.5 Flash模型始终位居前列。
查看Galileo的完整幻觉指数结果,请点击这里。
感谢阅读!如果您对AI的更多资讯感兴趣,可以查看更多AI文章:GPTNB。
Galileo发布新的幻觉指数
install_url
to use ShareThis. Please set it in _config.yml
.