2024-06-21发表2025-03-21更新 ByteAILab 7 分钟读完 (大约1059个字)

Meta unveils five AI models for multi-modal processing, music generation, and more

Meta已经发布了五款重要的新人工智能模型和研究，包括可以处理文本和图像的多模态系统、下一代语言模型、音乐生成、AI语音检测，以及改善AI系统中多样性的努力。{ width=50% }

这些发布来自Meta的Fundamental AI Research (FAIR)团队，该团队已经在开放研究和协作方面专注于推动AI发展超过十年。随着AI快速创新，Meta认为与全球社区合作至关重要。
Meta表示：“通过公开分享这些研究，我们希望激发迭代，并最终帮助以负责任的方式推动AI。”
变色龙：多模态文本和图像处理
其中包括Meta的“变色龙”模型的关键组件，该模型在研究许可下发布。变色龙是一个可以同时理解和生成文本和图像的多模态模型系列，与大多数典型的单模态语言模型不同。
Meta解释说：“就像人类可以同时处理文字和图像一样，变色龙可以同时处理并传递图像和文本。”“变色龙可以接受任何文本和图像的组合作为输入，同时输出任何文本和图像的组合。”
潜在用例几乎是无限的，从生成创意字幕到使用文本和图像提示新场景。
多记号预测以加快语言模型训练
Meta还发布了用于代码自动补全的预训练模型，这些模型使用了非商业性研究许可下的“多记号预测”。传统语言模型训练通过预测下一个单词来实现，在效率上存在问题。多记号模型可以同时预测多个未来单词，实现更快的训练。
Meta表示：“虽然[单词级]方法简单且可扩展，但也很低效。相比之下，它需要的文本量比孩子学习相同程度的语言流畅性多几个数量级。”
JASCO：增强文本到音乐模型
在创造方面，Meta的JASCO允许根据文本生成音乐片段，并通过接受和弦和节拍等输入来提供更多控制。
Meta解释说：“虽然现有的文本到音乐模型如MusicGen主要依赖文本输入进行音乐生成，我们的新模型JASCO能够接受各种输入，例如和弦或节拍，以提高对生成音乐输出的控制。”
AudioSeal：检测AI生成的语音
Meta声称AudioSeal是第一个设计用于检测AI生成语音的音频水印系统。它可以在大音频剪辑中比以前的方法快485倍来精确定位由AI生成的特定段落。
Meta表示：“AudioSeal根据商业许可发布。这是我们分享的几项负责任研究中的一项，旨在帮助防止滥用生成式AI工具。”
改善文本到图像多样性
另一个重要的发布旨在改善文本到图像模型的多样性，这些模型通常会展示地理和文化偏见。
Meta开发了自动指标来评估潜在的地理差异，并进行了一个包括65000多注释的大型研究，以了解全球人们如何感知地理表现。
Meta表示：“这使得AI生成的图像更具多样性和更好的代表性。”相关代码和注释已经发布，以帮助改善生成模型的多样性。
通过公开分享这些开创性模型，Meta表示希望促进协作并推动AI社区中的创新。

感谢阅读！如果您对AI的更多资讯感兴趣，可以查看更多AI文章：GPTNB。

ByteAILab

2024-06-21

2025-03-21