没有等来OpenAI开源GPT-4o,等来了开源版VITA

开源领域又传来好消息。

语言模型 (LLM) 经历了重大的演变,最近,我们也目睹了多模态大语言模型 (MLLM) 的蓬勃发展,它们表现出令人惊讶的多模态能力。


特别是,GPT-4o 的出现显著推动了 MLLM 领域的发展。然而,与这些模型相对应的开源模型却明显不足。开源社区迫切需要进一步促进该领域的发展,这一点怎么强调也不为过。

本文,来自腾讯优图实验室等机构的研究者提出了 VITA,这是第一个开源的多模态大语言模型 (MLLM),它能够同时处理和分析视频、图像、文本和音频模态,同时具有先进的多模态交互体验。

研究者以 Mixtral 8×7B 为语言基础,然后扩大其汉语词汇量,并进行双语指令微调。除此以外,研究者进一步通过多模态对齐和指令微调的两阶段多任务学习赋予语言模型视觉和音频能力。

VITA 展示了强大的多语言、视觉和音频理解能力,其在单模态和多模态基准测试中的出色表现证明了这一点。

除了基础能力,该研究在提升自然多模态人机交互体验方面也取得了长足进步。据了解,这是第一个在 MLLM 中利用非唤醒交互和音频中断的研究。研究者还设计了额外的状态 token 以及相应的训练数据和策略来感知各种交互场景。

VITA 的部署采用复式方案,其中一个模型负责生成对用户查询的响应,另一个模型持续跟踪环境输入。这使得 VITA 具有令人印象深刻的人机交互功能。

VITA 是开源社区探索多模态理解和交互无缝集成的第一步。虽然在 VITA 上还有很多工作要做才能接近闭源同行,但该研究希望 VITA 作为先驱者的角色可以成为后续研究的基石。

论文地址:https://arxiv.org/pdf/2408.05211
论文主页:https://vita-home.github.io/

方法介绍:
VITA 的整体训练流程包括三个阶段:LLM 指令微调、多模态对齐和多模态指令微调。

LLM 指令微调
Mixtral 8x7B 的性能属于顶级开源 LLM 中一员,因此该研究将其作为基础。然而研究者观察到官方的 Mixtral 模型在理解中文方面的能力有限。为了注入双语(中文和英文)理解能力,该研究将中文词汇量扩展到基础模型,将词汇量从 32,000 个增加到 51,747 个。在扩展词汇量后,研究者使用 500 万个合成的双语语料库进行纯文本指令微调。

多模态对齐
为了弥合文本和其他模态之间的表征差距,从而为多模态理解奠定基础。仅在视觉对齐阶段训练视觉连接器。

数据级联
对于纯文本数据和图像数据,该研究旨在将上下文长度级联到 6K token。

音频模态
音频模态包括音频编码器和音频对齐。在对齐阶段使用了自动语言识别(ASR)。

多模态指令微调
该研究对模型进行了指令调整,以增强其指令遵循能力。

实验评估
语言性能
音频性能
多模态性能


具体部分图片链接请点击原文查看

感谢阅读!如果您对AI的更多资讯感兴趣,可以查看更多AI文章:GPTNB

没有等来OpenAI开源GPT-4o,等来了开源版VITA

https://www.gptnb.com/2024/08/15/2024-08-14-auto5_2-RWTWwG/

作者

ByteAILab

发布于

2024-08-15

更新于

2025-03-21

许可协议