Meta 公布五款 AI 模型,支持多模态处理、音乐生成等

Meta 公布了五款重要的新 AI 模型和研究成果,包括支持文本和图像的多模态系统、下一代语言模型、音乐生成、AI 语音检测以及改善 AI 系统多样性的努力。图片{ width=50% }


这些发布来自 Meta 的基础 AI 研究(FAIR)团队,该团队已经在推动 AI 技术通过开放研究和合作方面投入了十多年的时间。随着 AI 技术的快速创新,Meta 认为与全球社区合作至关重要。
Meta 表示:“通过公开分享这些研究成果,我们希望激发创新,并最终帮助以负责任的方式推动 AI 技术的发展。”
Chameleon:多模态文本和图像处理
其中一项发布的关键内容是 Meta 的“Chameleon” 模型的组成部分,采用研究许可证。Chameleon 是一系列多模态模型,可以同时理解和生成文本和图像,与大多数仅支持单模态的大型语言模型不同。
Meta 解释道:“正如人类可以同时处理文字和图像一样,Chameleon 能够同时处理并传递图像和文本。Chameleon 可以接受任意组合的文本和图像作为输入,并输出任意组合的文本和图像。”
潜在的用例几乎是无限的,从生成创意标题到通过文本和图像触发新场景。
多标记预测以加速语言模型训练
Meta 还发布了具有“多标记预测”的代码完成预训练模型,采用非商业研究许可证。传统语言模型训练效率低下,只能预测下一个词。多标记模型可以同时预测多个未来词,以加快训练速度。
Meta 表示:“虽然 [预测下一个词] 的方法简单且可扩展,但也低效。相比之下,它需要比儿童学习同样语言流利度所需的文本多几个数量级。”
JASCO:增强文本到音乐生成模型
在创造性方面,Meta 的 JASCO 允许从文本生成音乐片段,同时通过接受和处理和弦和节拍等输入,提供更多控制。
Meta 解释道:“虽然现有的文本到音乐生成模型,如 MusicGen,主要依赖文本输入进行音乐生成,但我们的新模型 JASCO 能够接受各种输入,如和弦或节拍,以提高对生成音乐输出的控制。”
AudioSeal:检测 AI 生成的语音
Meta 声称 AudioSeal 是首个旨在检测 AI 生成语音的音频水印系统。它可以在大型音频片段中比以往的方法快达 485 倍,准确定位由 AI 生成的特定片段。
Meta 表示:“AudioSeal 是在商业许可证下发布的。这仅是我们分享的多项负责任研究中的一个。我们希望以此帮助防止生成式 AI 工具的滥用。”
改善文本到图像的多样性
另一个重要的发布旨在改善文本到图像模型的多样性,因为这些模型通常会存在地理和文化偏见。
Meta 开发了自动指标来评估潜在的地理差异,并进行了一个超过 65000 个注释的大型研究,以了解全球人们如何看待地理表示。
Meta 表示:“这将使 AI 生成的图像更多样化、更好地代表不同文化。”相关代码和注释已发布,以帮助改进生成模型的多样性。
通过公开分享这些开创性的模型,Meta 希望促进合作,并推动 AI 社区内的创新。
(照片由 Dima Solomin 拍摄)
另请参阅:NVIDIA 展示最新的视觉 AI 进展

想要从行业领袖那里了解更多关于 AI 和大数据的知识吗?查看将在阿姆斯特丹、加利福尼亚和伦敦举办的 AI & Big Data Expo。这个全面的活动与其他领先活动合作,包括智能自动化大会、BlockX、数字转型周以及网络安全和云计算博览会。
探索由 TechForge 提供的其他即将举行的企业技术活动和网络研讨会。

感谢阅读!如果您对AI的更多资讯感兴趣,可以查看更多AI文章:GPTNB

Meta 公布五款 AI 模型,支持多模态处理、音乐生成等

https://www.gptnb.com/2024/06/21/2024-06-20-auto2-Go9GO5/

作者

ByteAILab

发布于

2024-06-21

更新于

2025-03-21

许可协议