Microsoft unveils Phi-3 family of compact language models

Microsoft宣布推出Phi-3系列开放式小语言模型(SLMs),并称它们是同类中性能最强、性价比最高的模型。图片{ width=50% }


由Microsoft研究人员开发的创新训练方法使Phi-3模型在语言、编码和数学基准测试中表现优异,超过了较大模型。

“我们将开始看到的不是从大到小的转变,而是从单一模型类别转向模型组合,客户可以根据场景选择最佳模型。”微软生成AI产品经理Sonali Yadav表示。

首个Phi-3模型Phi-3-mini拥有38亿参数,如今已在Azure AI模型目录、Hugging Face、Ollama和NVIDIA NIM微服务中公开提供。尽管体积较小,Phi-3-mini的性能超过了两倍大小的模型。随后将推出Phi-3-small(70亿参数)和Phi-3-medium(140亿参数)等额外的Phi-3模型。

“有些客户可能只需要小型模型,有些需要大型模型,许多人会希望以各种方式结合两者。”微软AI副总裁Luis Vargas表示。

SLMs的关键优势在于它们较小的尺寸,可以实现设备端部署,提供低延迟的AI体验,无需网络连接。潜在用例包括智能传感器、摄像头、农业设备等。隐私也是另一个优点,通过在设备上保留数据。

大语言模型(LLMs)擅长于在庞大数据集上进行复杂推理,适用于通过理解科学文献中的相互作用进行药物发现等应用。然而,SLMs为简单的查询回答、摘要、内容生成等提供了引人注目的替代选择。

“微软并非追求越来越大的模型,而是开发具有更精心策划数据和专业训练的工具。”Iris.ai的CTO兼联合创始人Victor Botev评论道。

“这种方法能够在不具备数万亿参数模型所需的大量计算成本的情况下提供性能和推理能力的改进。实现这一承诺将为寻求AI解决方案的企业拆除一道巨大的阻碍。”

突破性训练技术

使得微软的SLM质量飞跃的关键是一种受到睡前故事书启发的创新数据过滤和生成方法。

“为什么不使用极高质量的数据进行训练,而不是只使用原始网络数据?”领导SLM研究的微软副总裁Sebastien Bubeck提出了这个问题。

Ronen Eldan每晚与女儿的阅读习惯激发了生成一个由数百万个简单叙述组成的‘TinyStories’数据集的想法,通过提示一个大型模型用4岁孩子会认识的词汇组合创作。令人惊讶的是,对TinyStories进行训练的1000万参数模型可以生成具有完美语法的流畅故事。

在这一早期成功的基础上,团队获得了经过教育价值审核的高质量网络数据,创建了‘CodeTextbook’数据集。这是通过人类和大型AI模型的多轮提示、生成和过滤合成的。

“在产生这些合成数据时我们非常谨慎。” Bubeck说。“我们不会采纳我们所产生的所有内容。”

高质量的训练数据明显改变了局面。“因为它是从类似教科书的材料中阅读…这使得语言模型阅读和理解这些材料的任务变得更容易。” Bubeck解释道。

缓解AI安全风险

尽管经过深思熟虑的数据筛选,微软强调对Phi-3发布应用额外的安全措施,这与其所有生成式AI模型的标准流程一致。

“与所有生成式AI模型发布一样,微软的产品和负责任的AI团队采用多层次方法管理和减轻开发Phi-3模型的风险。” 一篇博文中写道。

这包括进一步的训练示例以强化预期行为、通过红队评估确定漏洞,以及为客户提供Azure AI工具,以在Phi-3之上构建可信赖的应用。

想了解更多关于AI和大数据的行业领先信息吗?查看将在阿姆斯特丹、加利福尼亚和伦敦举行的AI & Big Data Expo。这一全面的活动与BlockX、Digital Transformation Week和Cyber Security & Cloud Expo等其他主要活动同场举办。

查看由TechForge提供的其他即将举办的企业技术活动和网络研讨会。
Tags: ai, artificial intelligence, language models, microsoft, open source, phi-3, small language models



感谢阅读!如果您对AI的更多资讯感兴趣,可以查看更多AI文章:GPTNB

Microsoft unveils Phi-3 family of compact language models

https://www.gptnb.com/2024/04/26/2024-04-25-auto2-i9PDJi/

作者

ByteAILab

发布于

2024-04-26

更新于

2025-03-21

许可协议