当前位置：首页 » AI资讯

AI大模型技术进化论：多模态大模型综述

2024-05-10

445

（报告出品方：长江证券）

多模态模型重塑 AI 技术范式

多模态模型通过高技术供给重塑 AI 技术范式。多模态模型通过融合语言模态与图像模态，将语言模态包含的文本理解与思维链能力投射在图像模态上，赋予了模型图像理解与生成功能。从 AI 技术范式来看，多模态技术通过预训练+调参的方式颠覆了传统机器视觉小模型 CNN 高度定制化的业务模式，模型的泛用性大幅度提高。从 AI 商业模式来看，产业的话语权逐渐由应用端走向研发端，即改变了之前完全由客户定夺市场（项目制考虑单一任务投入人力、算力、周期计算项目金额）转向由技术定义市场（MAAS，客户无法估测基础模型摊薄成本，基座模型大力投入限制参与玩家，话语权降低）

多模态模型的核心目标是模拟人类大脑处理信息的方式。无论是语言模态还是图像模态，本质上是信息的一种载体。人类眼睛、耳朵等感官可以类比成接受各种模态的传感器，而大脑可以整合不同感官的信息来理解世界。同理，多模态模型模拟人类大脑处理信息的方式，把各种感知模态结合起来，以更全面、综合的方式理解和生成信息，最终实现更丰富的任务和应用。

多模态模型的技术路径是从图像–语言模态融合再到三种以上模态的融合。语言模态训练赋予了模型逻辑思维能力与信息生成能力，这两种能力是处理信息的最基础能力。视觉模态的信息流密度较高，也与现实世界更贴切，因此成为多模态技术的首选信息载体。具备视觉能力的模型也具备更高实用性，应用场景大幅度拓展，涉及现实世界的方方面面。在此基础上，模型可以继续发展动作、声音、触觉等不同模态，以应对更加复杂的场景。

多模态模型目前主要指的是文本–图像模型。模态是指一些表达或感知事物的方式，每一种信息的来源或者形式，都可以称为一种模态。例如，人有触觉，听觉，视觉，嗅觉；信息的媒介有语音、视频、文字等；多种多样的传感器如雷达、红外、加速度计等，每一种都可以称为一种模态。目前已落地的多模态模型主要为文本–图像大模型，已经有 Clip、ViT、GPT-4 等几十种基础模型推出，并且诞生了诸如 Stable Diffusion、 Midjourney 这样已落地的应用；所以多模态大模型领域目前以文本-图像大模型为主，未来随着 AI 技术的发展，包含更多模态的模型有望陆续推出。

与大语言模型对比：抬升模型能力天花板

大模型能力的本质是对信息的压缩与二次处理，多模态大模型扩大了信息输入模态，提升了模型能力天花板。大语言模型只能处理语言文本数据，而多模态模型可以同时处理图片与文本数据，提高了模型能力的天花板。此外，视觉模态是直接从现实世界获取的初级模态，无需经过人为加工；而语言模态是由人类加工得到的二级模态，因此视觉模态的数据源远大于语言模态，获取更加便利，成本更加低廉。此外，图像模态所包含的信息密度也更高，相比语言模态更直观易于理解。

多模态模型不仅大幅度提高了信息流密度，还突破了语言模态不同语种的限制。国外科技巨头在数据资源方面具有很强的优势。以中文、英文语言为例，ChatGPT 等大模型的数据训练集主要为互联网上采集而来的各种文本，文本以英文语料为主，而英文相较于其他语言有天然的规模优势。截至 2021 年，英文网页数量占据了互联网所有网页的 53.3%，而中文仅占 1.4%。此外，维基百科、英文论文等语料又保证了英文文本训练集的高质量，自然科学论文索引中英文论文的数量占到了 98.05%，而中文仅占 0.28%。相比之下，图像模态是可以直接获取的一级模态，因此多模态的数据突破了语言种类限制。

多模态模型提高了信息交互效率，降低了应用门槛。在实际使用过程中，大语言模型必须输入文本 Prompt 来触发模型文本回答，但编写准确的 Prompt 需要一定的技能和思考。使用纯文本的交互方式有时会受限于文本的表达能力，难以传达复杂的概念或需求。相比之下，多模态模型图像的交互方式使用门槛更低，更加直观。用户可以直接提供图像或视觉信息，大幅度提高了信息交互效率。此外，多模态模型不同模态的信息可以相互印证，提高了模型推理过程的鲁棒性。

与传统机器视觉模型对比：拓宽应用边界，提升价值量

在预训练大模型出现以前，机器视觉技术（CV）是深度学习领域的一个重要分支。机器视觉领域的深度学习算法以卷积神经网络（CNN）为主。CNN 在图像上应用卷积操作，将小的卷积核在图像上滑动，从局部区域提取特征。具体而言，CNN 算法会把一张图像首先切割成若干个小方块（如 3X3），将每一个小方块转化成一个单独的向量，先对全图像在 3X3 的 9 个方块范围计算卷积得到特征值（CNN 算法），这些特征映射捕捉了不同的局部信息。然后对全图像在 2X2 的 4 个小方块范围内取最大值或平均值（池化算法）。最后经过多轮特征值提取与池化后，会将矩阵投喂给神经网络，用于最终的物体识别、图像分割等任务。

传统机器视觉模型（CV）只能处理单模态图像数据。由于传统机器视觉等模型仅对图像数据进行了表征编码，通过从图像数据中提取颜色（RGB）、纹理特征和形状描述符等视觉特征来识别图像，并未涉及语言模态，因此机器视觉模型无法处理文本信息，也不具备大语言模型自身携带的逻辑推理能力。

多模态模型具备较高可迁移性，拓宽了应用边界。尽管 CNN 算法在机器视觉领域得到了广泛的应用，但这些模型中的大多数都是为特定任务而设计的，因此在处理不同任务或数据集时，它们的可迁移性受到限制，导致模型可迁移性较差。多模态大模型通过在各种感知模态（如图像、文本、声音等）上进行联合训练，能够学习到更通用和抽象的特征表示，这些通用特征表示使得模型能够更好地理解和处理多种类型的数据，而不仅仅局限于特定任务的特征提取。训练得到的模型具备数十亿神经网络节点，这种预训练使得多模态模型在各种应用中都具备了强大的基础性能，因此模型具备较高泛化能力。对于特定的下游任务，多模态大模型可以通过微调来提高模型的可迁移性。这种方法有效地将多模态模型的泛化能力转化为在各种应用领域的性能优势，从而提高了模型在各种任务中的适用性。

多模态模型具备图像生成和逻辑推理的能力，提高了应用的价值量。传统的 CNN 模型只能对图像内容进行识别和分类，无法理解图像的深层含义，因此也无法实现图像层面的生成与逻辑推理。多模态模型由于采用了自编码的训练模式，可以通过给定文字生成图片或是根据图片生成对应描述。多模态模型中的文本模态也赋予了模型逻辑推理的能力，与图像模态实现了思维链的共振。

多模态模型技术综述

图像–语言多模态模型一般包含 6 大任务：表征、对齐、推理、生成、迁移、量化；其中对齐是对模型影响最大，也是难度最高的任务。1）表征：研究如何表示和总结多模态数据，以反映各个模态元素之间的异质性和相互联系；2）对齐：旨在识别所有元素之间的连接和交互；3）推理：旨在从多模态证据中合成知识，通常通过任务的多个推理步骤；4）生成：包括学习生成过程，以生成反映跨模态交互、结构；5）迁移：旨在将高泛化性的模型通过调参的方式适应各种垂类场景；6）量化：旨在通过研究模型的结构和工程化落地方式，更好地理解异质性、模态互联和多模态学习过程。

一、表征：当前已有成熟方案

表征的主要目标是把各种类型的数据转化为数值形式以便模型理解。单模态的表征负责将信息表示为模型可以处理的数值向量或者进一步抽象为更高层的特征向量，而多模态表征是指通过利用多模态之间的互补性，剔除模态间的冗余性，从而学习到更好的特征表示。表征目前分为三种方法：

1）融合表征：整合来多个模态的信息，通常用于同一场景下的不同模态，有助于寻找不同模态的互补性；

2）协同表征：将多模态中的每个模态分别映射到各自的表示空间，但映射后的向量之间满足一定的相关性约束，协同表征结构并不寻求融合而是寻找模态间的相关性；

3）裂变表征：创建一个新的不相交的表征集，输出集通常比输入集大，反映了同场景模态内部结构的知识，如数据聚类或因子分解。在三种表征方法中，目前多模态模型的训练大多采用融合表征法。

目前文本表征和图像表征都有较为成熟的方案。文本表征的目的在于把单词转化为向量 tokens，可以直接采用 BERT 等大语言模型的成熟的方案；图像表征生成图片候选区域提取特征并将其转化为矩阵，同样可以沿用机器视觉的方案，主要有 CNN、 Faster R-CNN 等模型方案。

二、对齐：多模态技术的最大瓶颈

对齐是多模态模型训练难度最高，也是最重要的任务，直接决定了模型的性能与颗粒度。对齐目的是识别多模态元素之间的跨模态连接和相互作用，例如分析人类主体的言语和手势时，如何将特定的手势与口语或话语对齐。模态之间的对齐在技术上有挑战性，因为不同模态之间可能存在长距离的依赖关系，涉及模糊的分割，并且可能是一对一、多对多的关联性。经过对齐的模型图像的时间、空间逻辑更加细腻，不同模态的信息匹配度更高，信息损耗更小。

数据对齐时会对文本和图像表征融合处理，依据词嵌入与信息融合方式的顺序不同可以分为双流（Cross-Stream）与单流（Single-Stream）。不同于大语言模型的 Encoder 与 Decoder 并存的模型架构，多模态大模型主要通过 Encoder 编码的方式实现了文本信息与图像信息的匹配融合。双流模型首先使用两个对立的单模态 Encoder 分别学习图像和句子表示的高级抽象，然后再通过 Cross Transformer 来实现不同模态信息的融合，使用双流方案的典型模型有 ViLBERT、Visual Parsing 等。由于需要对两种模态同时 Encoder 编码，所以双流模型的训练对算力消耗更大；双流模型的优点在于模态之间的相关性更简介明了，因此在可解释性方面更具优势。

单流假设两种模态背后的底层语义简单明了，因此简单地将低层语义空间中的图像区域特征和文本特征连接起来，将语言模态与图像模态一起同时输入一个 Encoder，以便以直接的方式进行融合，采用单流形式的典型模型有 VL-BERT、ViLT 等。由于只需要对混合的模态进行编码，所以单流模型的算力需求更低；但与此相对的，单流模型在信息传递和融合方面可能会受到限制，因为不同模态的信息会在单一流中进行混合，可能导致某些信息的丢失。此外，由于过早的将两种模态混合，因此两种模态的相关性难以研究，模型的可解释性较差。

三、推理与生成：沿用大语言模型方案

推理与生成是多模态模型结合已有知识并给出决策的过程。与纯视觉的推理过程不同，多模态中的视觉推理会受到文本模态的影响。因此文本所带的时间序列会赋予图像推理更强的逻辑性。而随着训练的逐步推进与参数量增长，多模态模型同样显示出了思维链能力，可以把复杂任务拆成多个简单步骤去完成。

多模态模型的推理与生成算法的搭建与大语言模型较为类似，因此可以沿用大语言模型的方案。模型推理与生成的速度主要由算力基础设施决定。多模态模型生成任务包含了总结、翻译与创建三个任务。1）总结：通过计算缩短一组数据，以创建一个摘要；该摘要给出了原始内容中最重要或最相关的信息，信息规模下降；2）翻译：涉及从一种模态到另一种模态的映射，信息规模保持不变；3）创建： 旨在从小的初始示例或潜在的条件变量中生成新的高维多模态数据，信息规模上升。

四、迁移：难度与下游应用场景关联度较大

多模态大模型的迁移是指将已预训练好的多模态模型，经过调参后用于解决不同任务或领域的过程。和大语言模型一样，经过预训练的大模型具备了基本的多模态生成、图像理解与逻辑推理的能力，但由于缺少行业数据的训练，所以在细分场景的适配性较低。而经过调参的多模态大模型会增强其图文检索、图像描述、视觉回答等功能，并且与医疗、教育、工业场景的匹配性更高。迁移任务在技术上难度不高，主要难点在于工程化调试，且难度与下游应用场景关联度较大。

多模态模型调参可以分为三种类型：全参数调参、提示调参和对齐增强调参。1）全参数调参：需要为下游任务微调所有参数；2）提示调参：任务提示微调仅需要微调每个下游任务的少量参数；3）对齐增强调参：对齐增强调参在多模态预训练模型之外添加了一个额外的对齐感知图像 Encoder 和一个额外的对齐感知文本 Encoder。对齐增强调整为每个下游任务一起训练所有参数。

五、量化：模型的迭代与改良

量化旨在通过更深入的实证和理论研究多模态模型，以提高其在实际应用中的鲁棒性、可解释性和可靠性。在量化过程中，开发者会总结模型构建的经验，量化不同模态之间的关联交互方式，寻求不同模态间更好地结合的方法。因此，量化往往会引导开发者重新回到模型的对齐与训练过程，将模型不断迭代优化，以求寻找到最佳的通用性与场景专用性的平衡点。量化是一个长期且模糊的过程，没有标准答案，只能通过模型迭代尝试寻找更优解法。

多模态模型的应用落地与产业趋势产品陆续发布，应用落地加速

2023 年 9 月 25 日，OpenAI 开放了 GPT-4 多模态能力。图像能力基于 GPT-4 Vision 模型，可以理解并解释图像内容，同时具备上下文回溯能力。GPT-4 的多模态能力基于 GPT-4V 模型，两者的训练均于 2022 年完成，完成后 GPT-4V 基于额外数据使用 RLHF 完成了一系列微调，从有害信息、伦理问题、隐私问题、网络安全、防越狱能力五个角度完善模型，大幅度降低了模型安全风险。此外，OpenAI 与 Be My Eye 公司合作进行应用的小规模试用，深度挖掘了多模态的应用场景。在长期打磨后 OpenAI 才开放了 GPT-4 的多模态能力。这代表应用落地的门槛目前不是技术限制，而是在于模型打磨和场景挖掘，长期打磨的 GPT-4 多模态能力具备较高的鲁棒性，安全性已达到商用标准，产品或有较高的成熟度。由此推测 GPT-4 多模态模型的应用落地或许可以更乐观。

9 月 21 日，OpenAI 发布了 DALLE-3 文生图模型。相比 2022 年 4 月发布的 DALLE- 2，DALLE-3 理解图像细微差别和细节的能力大幅度提高，生成的图像包含更多细节，更符合 prompt 描述。测评显示 DALLE-3 模型在相同 prompt 输入下的性能已经达到 Midjourney V5 水平。DALL-E 3 将于 10 月首先向 ChatGPT Plus 和企业客户提供。

DALLE-3 深度整合了 ChatGPT 模型，用户可以直接通过自然语言与 DALLE-3 交互。 DALLE-3 具备上下文的理解与记忆功能，可回溯上文信息。文生图应用门槛大幅度降低。简洁、准确的 prompt 描述是当前文生图模型的主要门槛，用户往往需要花费大量时间来编写和优化 prompt，以获取理想的生成效果。目前许多 Midjourney 使用者倾向于先通过 ChatGPT 打磨好 prompt 后再输入应用。本次 OpenAI 将 ChatGPT 接入 DALLE-3 模型，用户可以直接以自然语言与模型交互，大幅度简化了交互流程，降低了使用门槛。此外，DALLE-3 还具备上下文的理解与记忆功能，用户在后续的交互中，无需重复描述即可让模型回溯上文的信息。

场景匹配度提升，核心赛道有望快速渗透

多模态模型的应用场景更为丰富。大语言模型仅能用于写作、沟通等基于文本的场景，而多模态模型可覆盖全部视觉场景，因此应用范围大幅度提升。类比计算机发展早期从文本操作系统向图形操作系统的跃升，图像模态与物理世界更加贴切，信息密度更高，应用门槛更低，更符合人机交流习惯。随着 GPT-4 多模态能力放开，多模态模型应用有望快速落地。

多模态模型大幅度提高了场景匹配度。从 2023 年初以来，大模型应用落地如火如荼，但渗透速度却进展缓慢，核心原因在于大语言模型的场景匹配度不足，所以无法彻底颠覆细分场景。而多模态模型大幅度提高了应用的场景匹配度，实用性较高，有望在医疗、教育、办公等场景快速渗透，其高实用性的特质或催生大批爆款应用。因此建议关注核心场景多模态应用落地节奏。

多模态模型或带动新一轮军备竞赛。从算力角度来看，多模态模型的训练数据主要由图像组成，而图像数据的规模相比文本数据量大幅度提高，因此对算力的需求也更高。当前算力仍是阻碍 AI 模型训练端与推理端的主要瓶颈之一，多模态模型落地有望催生 AI 公司开启新一轮算力端的军备竞赛。因此建议关注英伟达链配套厂商与华为昇腾链厂商。

多模态大模型有望实现人形机器人“端到端”的方案。传统的机器人算法系统由感知、决策规划、控制三个模块组成，执行流程需要经过两个接口，而多模态模型合并了感知与决策模块，只包含一个接口。在机器人活动过程中，每个模块都要输出一个 “Hard Decision”作为下一个模型的“Prompt”输入，每多一个接口就会多一个 “Hard Decision”和“Prompt”的转化过程。如果上一模型输出的 Hard Decision 错误或是难以理解，则会导致下一步骤难以执行。此外，如果存在接口，下游模块执行过程中出现的错误也难以反馈给上一模块。因此，接口数量较少的系统不仅有更高的性能，也有更高的鲁棒性。

（本文仅供参考，不代表我们的任何投资建议。如需使用相关信息，请参阅报告原文。）

精选报告来源：幻影视界

举报/反馈

原文链接：https://baijiahao.baidu.com/s?id=1779804269950278898&wfr=spider&for=pc

图像融合文本分类模态分析能力模型过程能力

声明：本站内容均来自互联网，归原创作者所有，如有侵权必删除。本站文章皆由CC-4.0协议发布，如无来源则为原创，转载请注明出处。
小默AI工具导航网 » AI大模型技术进化论：多模态大模型综述

AI大模型技术进化论：多模态大模型综述

多模态模型重塑 AI 技术范式

相关推荐

评论 ( 0 )

取消回复

AIGC

AI聊天

AI文章工具

实用工具

阅读榜

点击榜

热门标签

AI大模型技术进化论：多模态大模型综述

多模态模型重塑 AI 技术范式

相关推荐

评论 ( 0 )

取消回复

AIGC

AI聊天

AI文章工具

实用工具

阅读榜

点击榜

小默AI工具导航网-1000+AI工具导航