2024-06-21发表2025-03-21更新 ByteAILab 8 分钟读完 (大约1218个字)

Meta 公布五款 AI 模型，支持多模态处理、音乐生成等

Meta 公布了五款重要的新 AI 模型和研究成果，包括支持文本和图像的多模态系统、下一代语言模型、音乐生成、AI 语音检测以及改善 AI 系统多样性的努力。{ width=50% }

这些发布来自 Meta 的基础 AI 研究（FAIR）团队，该团队已经在推动 AI 技术通过开放研究和合作方面投入了十多年的时间。随着 AI 技术的快速创新，Meta 认为与全球社区合作至关重要。
Meta 表示：“通过公开分享这些研究成果，我们希望激发创新，并最终帮助以负责任的方式推动 AI 技术的发展。”
Chameleon：多模态文本和图像处理
其中一项发布的关键内容是 Meta 的“Chameleon” 模型的组成部分，采用研究许可证。Chameleon 是一系列多模态模型，可以同时理解和生成文本和图像，与大多数仅支持单模态的大型语言模型不同。
Meta 解释道：“正如人类可以同时处理文字和图像一样，Chameleon 能够同时处理并传递图像和文本。Chameleon 可以接受任意组合的文本和图像作为输入，并输出任意组合的文本和图像。”
潜在的用例几乎是无限的，从生成创意标题到通过文本和图像触发新场景。
多标记预测以加速语言模型训练
Meta 还发布了具有“多标记预测”的代码完成预训练模型，采用非商业研究许可证。传统语言模型训练效率低下，只能预测下一个词。多标记模型可以同时预测多个未来词，以加快训练速度。
Meta 表示：“虽然 [预测下一个词] 的方法简单且可扩展，但也低效。相比之下，它需要比儿童学习同样语言流利度所需的文本多几个数量级。”
JASCO：增强文本到音乐生成模型
在创造性方面，Meta 的 JASCO 允许从文本生成音乐片段，同时通过接受和处理和弦和节拍等输入，提供更多控制。
Meta 解释道：“虽然现有的文本到音乐生成模型，如 MusicGen，主要依赖文本输入进行音乐生成，但我们的新模型 JASCO 能够接受各种输入，如和弦或节拍，以提高对生成音乐输出的控制。”
AudioSeal：检测 AI 生成的语音
Meta 声称 AudioSeal 是首个旨在检测 AI 生成语音的音频水印系统。它可以在大型音频片段中比以往的方法快达 485 倍，准确定位由 AI 生成的特定片段。
Meta 表示：“AudioSeal 是在商业许可证下发布的。这仅是我们分享的多项负责任研究中的一个。我们希望以此帮助防止生成式 AI 工具的滥用。”
改善文本到图像的多样性
另一个重要的发布旨在改善文本到图像模型的多样性，因为这些模型通常会存在地理和文化偏见。
Meta 开发了自动指标来评估潜在的地理差异，并进行了一个超过 65000 个注释的大型研究，以了解全球人们如何看待地理表示。
Meta 表示：“这将使 AI 生成的图像更多样化、更好地代表不同文化。”相关代码和注释已发布，以帮助改进生成模型的多样性。
通过公开分享这些开创性的模型，Meta 希望促进合作，并推动 AI 社区内的创新。
(照片由 Dima Solomin 拍摄)
另请参阅：NVIDIA 展示最新的视觉 AI 进展

想要从行业领袖那里了解更多关于 AI 和大数据的知识吗？查看将在阿姆斯特丹、加利福尼亚和伦敦举办的 AI & Big Data Expo。这个全面的活动与其他领先活动合作，包括智能自动化大会、BlockX、数字转型周以及网络安全和云计算博览会。
探索由 TechForge 提供的其他即将举行的企业技术活动和网络研讨会。

感谢阅读！如果您对AI的更多资讯感兴趣，可以查看更多AI文章：GPTNB。

Meta 公布五款 AI 模型，支持多模态处理、音乐生成等

https://www.gptnb.com/2024/06/21/2024-06-20-auto2-Go9GO5/

作者

ByteAILab

发布于

2024-06-21

更新于

2025-03-21

Meta 公布五款 AI 模型，支持多模态处理、音乐生成等

作者

发布于

更新于

许可协议

喜欢这篇文章？打赏一下作者吧

链接

分类

最新文章

归档

标签

订阅更新