Meta unveils five AI models for multi-modal processing, music generation, and more
Meta已经发布了五款重要的新人工智能模型和研究,包括可以处理文本和图像的多模态系统、下一代语言模型、音乐生成、AI语音检测,以及改善AI系统中多样性的努力。{ width=50% }
这些发布来自Meta的Fundamental AI Research (FAIR)团队,该团队已经在开放研究和协作方面专注于推动AI发展超过十年。随着AI快速创新,Meta认为与全球社区合作至关重要。
Meta表示:“通过公开分享这些研究,我们希望激发迭代,并最终帮助以负责任的方式推动AI。”
变色龙:多模态文本和图像处理
其中包括Meta的“变色龙”模型的关键组件,该模型在研究许可下发布。变色龙是一个可以同时理解和生成文本和图像的多模态模型系列,与大多数典型的单模态语言模型不同。
Meta解释说:“就像人类可以同时处理文字和图像一样,变色龙可以同时处理并传递图像和文本。”“变色龙可以接受任何文本和图像的组合作为输入,同时输出任何文本和图像的组合。”
潜在用例几乎是无限的,从生成创意字幕到使用文本和图像提示新场景。
多记号预测以加快语言模型训练
Meta还发布了用于代码自动补全的预训练模型,这些模型使用了非商业性研究许可下的“多记号预测”。传统语言模型训练通过预测下一个单词来实现,在效率上存在问题。多记号模型可以同时预测多个未来单词,实现更快的训练。
Meta表示:“虽然[单词级]方法简单且可扩展,但也很低效。相比之下,它需要的文本量比孩子学习相同程度的语言流畅性多几个数量级。”
JASCO:增强文本到音乐模型
在创造方面,Meta的JASCO允许根据文本生成音乐片段,并通过接受和弦和节拍等输入来提供更多控制。
Meta解释说:“虽然现有的文本到音乐模型如MusicGen主要依赖文本输入进行音乐生成,我们的新模型JASCO能够接受各种输入,例如和弦或节拍,以提高对生成音乐输出的控制。”
AudioSeal:检测AI生成的语音
Meta声称AudioSeal是第一个设计用于检测AI生成语音的音频水印系统。它可以在大音频剪辑中比以前的方法快485倍来精确定位由AI生成的特定段落。
Meta表示:“AudioSeal根据商业许可发布。这是我们分享的几项负责任研究中的一项,旨在帮助防止滥用生成式AI工具。”
改善文本到图像多样性
另一个重要的发布旨在改善文本到图像模型的多样性,这些模型通常会展示地理和文化偏见。
Meta开发了自动指标来评估潜在的地理差异,并进行了一个包括65000多注释的大型研究,以了解全球人们如何感知地理表现。
Meta表示:“这使得AI生成的图像更具多样性和更好的代表性。”相关代码和注释已经发布,以帮助改善生成模型的多样性。
通过公开分享这些开创性模型,Meta表示希望促进协作并推动AI社区中的创新。
感谢阅读!如果您对AI的更多资讯感兴趣,可以查看更多AI文章:GPTNB。
Meta unveils five AI models for multi-modal processing, music generation, and more