多模态大语言模型（MLLM）发展与展望

分享嘉宾｜殷述康中国科学技术大学博士在读
编辑整理｜张慕言
内容校对｜李瑶
出品社区｜DataFun

随着人工智能技术的快速发展，多模态大语言模型（MLLM）正成为研究和应用的新热点。本次分享题目为“多模态大语言模型领域进展分享”，主要介绍多模态大语言模型的背景、基础概念、演进、团队相关工作以及未来展望。

今天的介绍会围绕下面五点展开：

1. 多模态大语言模型背景介绍

2. 多模态大语言模型介绍

3. 多模态大语言模型演进

4. 团队相关工作介绍

5. 未来展望

多模态大语言模型背景介绍

近年来，大模型已成为自然语言处理领域最热门的研究方向之一。这些模型通过显著增加数据规模和参数量来实现性能的飞跃，不仅能够高效完成传统的自然语言处理任务如文本分类、命名实体识别等，还展现出解决更复杂问题的能力，例如高级对话生成及代码辅助编写。以 ChatGPT 为例，这类聊天机器人具备了所谓的“涌现能力”，即在特定参数规模下突然显现出来的强大推理能力。

然而，纯文本的大语言模型存在固有限制：它们仅能处理文本输入输出，而现实世界中的信息通常是多模态的，包括图像、声音等多种形式，因此在需要视觉或其他类型输入的任务中表现受限。为克服这一局限性，多模态大模型应运而生，旨在整合多种感知方式，提供更加全面的信息处理解决方案。此类模型允许用户直接上传图片进行交互，简化了许多应用场景下的操作流程，如基于网站截图生成代码或解释表情包含义等。

近一两年间，工业界与学术界均积极投入于多模态模型的研发工作。国际上知名的闭源项目有 OpenAI 的 GPT-4V/4o，以及谷歌的 Gemini Pro；国内方面，则出现了诸如阿里云 Qwen VL 等重要成果。同时，开源社区也见证了大量新项目的诞生与发展，自 2022 年末起至今，已有超过百款新型多模态模型陆续发布。

多模态大模型在多种任务中展现出了卓越的能力，以下是一些具体的应用案例：

图像描述（Captioning）：

传统的图像描述任务要求模型能够生成对给定图片内容的准确文字描述。GPT-4V 等多语言模型在这方面表现良好，不仅支持英文，还能输入和输出中文，使得用户可以方便地获取跨语言的图像描述。

计数任务处理：

模型能够执行一些特定的计数任务，例如统计图片中的人数或物体数量。用户只需上传一张图片，并用自然语言提出问题，如“这张图片中有多少人？”或“数一下图中的桌子数量”。即使是更复杂的场景，比如识别较小的物体，模型也能给出相对准确的回答。

目标定位：

在目标定位任务中，模型能够识别并标记出图片中特定对象的位置，提供边界框（bounding box）。尽管定位精度可能仍有改进空间，但这种功能对于需要精确定位的应用来说是非常有用的。

复杂视觉感知与理解任务：

多模态大模型在处理复合型任务时尤为出色。例如，在图表推理方面，用户可以上传一张图表，并请求模型进行数学计算，如求平均油耗（排除特定型号，如福特 F-150）。模型会首先识别图表中的数据点，然后根据指令完成相应的计算并直接返回结果。

另一个例子是代码生成，如果用户看到某个图表并希望了解其背后的代码实现方式，可以直接将图表传给模型。模型不仅能解释图表内容，还能生成相应的代码，甚至重现类似的图表。这种能力体现了多模态大模型在处理涉及视觉理解和逻辑推理的复杂任务上的强大潜力。

多模态大语言模型介绍

在开发一个多模态大语言模型时，通常需要关注以下几个关键方面：模型架构设计、数据选择与训练方法以及模型评估。

1. 模型架构

当前多模态大语言模型的构建主要基于预训练模型进行进一步训练。其架构一般包括三个部分：

（1）编码器：负责将原始的图像、音频或视频信号转化为高层次的特征表示。常见的编码器是 CLIP，它通过自监督对比学习来生成与文本语义对齐的图像表示。例如，使用 224×224 分辨率的图像块，最终得到 256 个视觉 token，这些 token 与文本 token 一起输入到大语言模型中。

（2）连接器：用于对齐不同模态（如视觉和文本）的表征空间，或者进行信息压缩。对于连接器，有两种常见结构：

MLP 结构：简单地将视觉编码器输出的 token 投影并与文本 token 拼接。
Q-former 结构：使用一组可学习的 query 向量来压缩视觉 token，减少计算开销，并提取更紧凑的表征。

（3）预训练的大语言模型：利用已有的丰富知识和强大的先验能力进行进一步训练。

2. 数据与训练

训练过程通常分为两个阶段：

第一阶段：模态对齐

使用图文配对数据（如 caption 数据）对齐视觉和文本语义空间，使大语言模型理解视觉信息。

第二阶段：指令微调

通过各种任务的数据（如视觉问答、检测等），以指令格式进行微调，使模型能够理解和执行新指令，泛化到未见过的任务。

3. 模型评估

评估多模态大模型性能的方法主要包括以下两种：

（1）常规任务测试集

这些测试集专注于特定的任务，使用专门的指标来衡量模型性能。例如，视觉问答（VQA）任务要求模型基于图片内容进行回答。问题通常分为两类：感知类问题，涉及物体的类别或属性，如“这双眼睛是什么颜色？”。浅层推理和常识问题，涉及更复杂的推理和常识知识，如“这个人的胡子是用什么做的？”在这种情况下，模型需要理解图片中的异常情况（例如，用香蕉伪造的胡子），并结合常识给出正确答案。

（2）高级能力测评基准

为了评估多模态大模型在复杂推理、常识理解和代码推理等方面的新涌现能力，研究人员开发了专门的 benchmark。包括但不限于：给定一张红灯的图片，询问“我是否应该停下来还是直接过马路？”模型需要结合世界知识（即红灯意味着停止）来回答。询问“这张图里有几只真正的猫？”，如果只是简单地识别，可能会误认为镜子里的猫也是真实的。但具备足够常识的模型会知道镜子里的猫不是真实的，从而正确回答“只有一只真正的猫”。提供一段 Python 代码，并询问模型输出的结果。例如，给定一段代码，模型需要首先识别代码内容，然后进行推理以判断输出结果是“Hello”还是“World”。这类任务不仅考验模型的视觉感知能力，还考验其代码理解和逻辑推理能力。

多模态大语言模型演进

在过去的一年中，多模态大模型在技术方面经历了显著的变化和发展，不仅提高了多模态模型的性能，还扩展了其应用场景，使其能够更好地处理复杂的多模态信息和生成丰富的内容。

1. 分辨率提升

分辨率的提高使得模型能够捕捉到更多的细节信息，从而更准确地回答问题。例如，在处理标签上的小字时，高分辨率对于 OCR（光学字符识别）能力至关重要。如 GPT-4V 能够在高分辨率下正确识别包装袋上的保质期等小字，而其他开源模型如 Qwen VL 和 LLAVA 则无法做到。

这里有两种实现方法：一种方法是通过使用更大的分辨率来微调视觉编码器。例如，Qwen VL 在第二阶段训练时将分辨率从 224 翻倍到 448，以提高输入图像的分辨率。这种方法需要大量的图文数据进行微调，计算开销较大。

另一种方法是将大分辨率的图片切成多个小块，每块仍然保持原来的分辨率（如 224×224），然后分别送入视觉编码器。全局特征和局部特征结合的方式可以兼顾全局信息和细节，同时避免重新训练整个视觉编码器。

2. 更丰富的输入形式

早期的多模态模型主要支持单一图片输入，并且输出主要是文本。随着技术的发展，现在的模型不仅支持多图输入，还支持视频输入。例如，计数任务可以输入多张图片，模型需要综合所有图片的信息进行推理。比如，输入两张图片并询问共有多少只猫，模型需要分别计数并相加得到最终答案。模型还可以处理涉及多张图片的数学推理任务。例如，给定三张图片，第一张设 a=21，第二张设 b=8，第三张写 c=b+a，模型需要识别这些文字并进行数学推理得出 c 的值。

视频处理也是一个重要的发展方向。模型可以分析一段视频的内容，并提供详细的描述。例如，模型可以解释一段星巴克广告视频中的情节发展。现实应用中，一些平台如 B 站已经引入了 AI 总结机器人，用户可以通过@机器人获取视频摘要和关键时间点的内容。

3. 更丰富的 I/O 模态支持

现代多模态模型不仅输出文本，还能生成图文结合的内容。例如，给定一个命题作文题目，模型不仅能生成长文，还能为文章配上相关图片，类似于公众号推文的形式。这里有两种方法，一种方法是在大语言模型后面连接生成模型，如图片扩散模型，用于生成其他模态的信息。

另一种方法是构建原生的多模态大模型，统一处理输入和输出。由于图片是连续信号，需要将其离散化为固定索引，以便与文本词表统一。这样可以直接预测输出 token 的索引，无需额外的编码器和连接器。这种方法天然支持图文交错的数据训练。

团队相关工作介绍

在过去的一年中，我们团队在多模态大模型领域进行了多项研究和探索。通过这些工作，我们在多模态大模型的准确性、多样性和复杂任务处理能力方面取得了显著进展，为未来的研究奠定了坚实的基础。

1. 多模态幻觉的缓解

在早期的开源模型探索中，模型输出中经常出现幻觉现象，即模型对图片的描述与实际内容不符。例如，将一只棕色的小狗描述为红色，或者错误地声称图片中有其他几只狗。

减少幻觉可以提高模型的准确性和可用性，从而提升用户体验。

由于实验室资源有限，无法训练或微调新的多模态大模型，我们采用了一种免训练的方法来缓解幻觉问题。集成专家模型，即利用传统感知模型（如物体检测和 VQA 模型）的强感知能力，结合大语言模型的推理能力，修正模型输出中的幻觉。这个框架是即插即用且免训练的。实验证明，我们的框架在多个模型上都带来了稳定的提升。例如，在 mPLUG 模型上，物体存在性的识别从 101 分提升到 200 分满分。经过修正后，模型可以正确描述图片内容：“这张图上出现了一只棕色的狗，它在草坪上奔跑。”幻觉显著减少，属性和数量描述均被修正。

2. 长视频理解的定量评估基准

随着谷歌 Gemini Pro 的发布，长视频理解成为一个重要方向。然而，现有的评测基准大多集中在短时长视频，难以评估模型在长视频全局理解上的性能。

数据集：人工采集并标注的 900 条视频，包括短视频、中视频和长视频，涵盖自然场景、日常生活、纪录片、动画片等多个领域，包括第一人称视角的 vlog，具有足够高的有效时长（38%）。每条视频标注了 3 个问答对，共 2700 个 QA，问题设计要求模型不能仅依赖局部信息，而需要全面理解视频内容才能回答，其中，短中视频更侧重感知类任务（物体识别、OCR 识别等），而长视频更侧重于推理类任务（时序推理、空间推理、视频摘要总结等）。

测评结果：对 Qwen VL、InternVL-Chat-V1.5、Video LLaVA、GBT 4V/4o、Gemini 1.5 Pro 等模型进行评测。开源模型最优结果即使相较于闭源模型最差结果，都仍有较大提升空间。整体上闭源模型在粗粒度感知任务上表现较好，但在细粒度感知任务（如计数问题）上仍有不足。细粒度感知问题仍然是多模态大模型的共同瓶颈。

3. 多模态交互体验提升

我们的工作旨在开源探索中向 GPT-4o 的功能靠拢，核心设计包括屏蔽背景噪音和打断输出后快速响应，以提升用户体验。

屏蔽背景噪音：在实际环境中，可能会有背景噪音干扰，例如有人突然叫你吃饭。我们需要模型能够屏蔽这些噪音，提高对话体验。GPT-4o 的演示是在一个干净无噪音的环境中进行的，而我们在这一方面进行了深入探索。我们加入了一些特殊的状态 token，并设计了相关的数据进行微调。通过这种方式，模型可以判断音频输入是否有效：如果音频是有效的，模型会输出<1>；如果是噪音，则输出<2>。基于这些特殊状态 token 的输出，我们可以判断当前输入是噪音还是有效信息。

打断输出后快速响应：我们设计了一个双工机制，同时运行两个模型：生成模型和监听模型。生成模型负责前台的回答输出。监听模型负责监听音频输入。如果新的音频输入到来，监听模型会及时打断当前的生成模型，并接管回答任务。此时，监听模型变为生成模型，被打断的生成模型则变为监听模型，继续在后台监听新的用户输入。

未来展望

在未来，多模态大模型领域有以下几个重要的研究方向：

更长的多模态上下文：随着输入视觉 token 数量的增加（如支持多图、高分辨率图像或视频理解），我们需要更长的上下文来处理这些信息。这不仅要求模型能够处理更多的 token，还要求其具备更强的长序列理解能力。一种比较有效的方法是进行有效的视觉 token 压缩，通过减少 token 数量来在不增加上下文长度的情况下提高长序列的理解能力。
智能体的发展：目前许多手机厂商正在开发智能助手，以帮助用户自动完成一系列操作，例如调整手机亮度至夜间模式。当前开源模型通常较大（如 7B 或 13B），端侧部署需要进行量化和优化以适应设备限制。
统一的多模态生成与理解：原生的多模态大模型采用统一的训练范式，可以直接使用图文交错的内容进行训练，从而实现统一的生成和理解能力。这种模型不仅能理解图片，还能生成图片，生成的内容更加自然，符合人类的认知习惯。

以上就是本次分享的内容，谢谢大家。

多模态大语言模型（MLLM）发展与展望

今天的介绍会围绕下面五点展开：

多模态大语言模型背景介绍

多模态大语言模型介绍

1. 模型架构

2. 数据与训练

3. 模型评估

多模态大语言模型演进

1. 分辨率提升

2. 更丰富的输入形式

3. 更丰富的 I/O 模态支持

团队相关工作介绍

1. 多模态幻觉的缓解

2. 长视频理解的定量评估基准

3. 多模态交互体验提升

未来展望

相关推荐

从银行AI指数排名看，国际银行如何用ChatGPT？

AI大模型助力中小银行跨越“智能化鸿沟”

2023深圳湾零售银行大会——ChatGPT推动的大模型LLM应用，银行如何应对这个“奇点”

张宏江：ChatGPT和AIGC爆火背后，Al 大模型的发展和机遇

金融大模型落地实践

中国金融行业垂类大模型产品汇总

分享到:

请登录