中金:大模型兴起之后,多模态涌现之前

本文来自格隆汇专栏:中金研究 作者:于钟海 王之昊等

多模态是迈向通用人工智能的“必经之路”

近年来,以GPT为代表的大模型在语言领域取得了重大突破,人类探索AGI的路径初见曙光。而在大模型兴起之后,产业也试图在图像、视频、音频等更多模态领域复现“Scaling Law”的成功,继续实现大模型的“智能涌现”。本文中中金研究从技术脉络、产业趋势、应用展望等多个角度,遍历海外和国内的一二级进展,对多模态这一方向进行全面的阐释分析,中金研究看好在全球AI浪潮延续,期待攻克多模态这一AI产业发展的下个高地。

摘要

多模态是迈向通用人工智能的“必经之路”。多模态的本质要利用视觉、听觉、触觉、味觉等语言之外更加丰富的感知通道,去模拟人类理解与表达信息的能力。理想中的多模态大模型具备跨模态的泛化理解和生成能力,其更符合人类感知世界的方式,中金研究认为其或能进一步打开AI能力的上限。产业界也在积极探索多模态大模型可行的技术路径,在多模态领域“复刻”大语言模型的成功。但目前多模态大模型的技术栈也尚未收敛,多模态学习和跨模态对齐仍为技术难点,未来产业发展仍有无限可能。

产业探索步步为营,视觉等模态领域进展不断。图像方面,技术路径已经逐步成熟,扩散模型成为图像生成领域的主流架构,而后产业界也开始将Transformer架构引入,产生了ViT、DiT等扩展性更好的生成模型,过去数年产业界也已诞生多款文生图流行应用;视频方面,文生视频基于文生图像的技术路线,而今年年初Sora的出现也在视频领域延续了DiT架构与“Scaling Law”的成功;音频方面,Transformer加持下的语音合成技术发展也更趋成熟;3D模型方面,初期探索下技术方向已逐渐清晰,中金研究认为3D生成也可能成为未来视觉多模态领域取得突破性进展的下一场景。

多模态AI进展带来更多应用场景的全新可能。自动驾驶领域,多模态模型具备零样本学习(zero-shot)等泛化能力,中金研究认为其或能加速多模态模型和世界模型在学术界的前沿探索;AI Agent领域,中金研究认为多模态进展能够为AI Agent带来更为丰富的信息感知来源与任务处理范式,也是其未来大规模商业化落地的前提条件;具身智能领域,中金研究认为多模态AI迭代有望进一步提升机器人的感知决策能力,结合伺服驱动和运动控制技术的提升,加速人形机器人的产业化落地。

中金研究持续看好全球AI产业浪潮,并判断多模态可能是未来数年大模型产业技术突破和产业催化较为集中的领域,建议重点关注相关产业趋势进展。

风险

技术进展不及预期;应用落地不及预期;行业竞争加剧。

正文


多模态:迈向通用人工智能的“必经之路”


如何理解多模态大模型的意义和价值?

多模态的本质是利用更加丰富的感知通道,去模拟人类理解与表达信息的能力。多模态是指通过结合多种感知通道,例如视觉、听觉、触觉、味觉等,来对信息进行理解和处理。人类的智能即是用多模态的方式来进行信息和交互处理的,因此在人工智能领域,产业也在探索一种能够处理多种类型数据(包括文本、图像、音频和视频)的多模态人工智能模型,进而更好地去模拟人类的智能,实现AGI通用人工智能。

多模态打开AI模型能力的“上限”,是由LLM语言大模型迈向AGI的“必经之路”。近一年多以来,以GPT为代表的LLM自然语言大模型在自然语言领域取得了较大成果,人工智能在语言文字领域的通用泛化能力取得突破,同时出现一定的智能“涌现”的迹象。但在现实世界中,人类智能处理的更多的信息量是还以视觉、听觉、触觉等其他模态存在的,中金研究认为在未来长期通往AGI的道路中,能够支持对于多种模态通用泛化的输入输出是未来AGI需要具备的必要能力。

图表:多模态是大模型通往AGI发展的“必经之路”

资料来源:Jina AI,中金公司研究部

产学研界旨在多模态领域“复刻”大模型在语言的成功。在过去数年中,以Transformer作为架构核心的LLM已经在文字模态领域取得了显著成果,“Scaling Law”持续得到验证,大模型在语言领域呈现出了初步“智能涌现”的特征;因此产业也开始愈发关注如何基于在语言单模态领域LLM的成功经验,将Transformer引入至图像、视频等更多模态的任务场景中,充分发挥Transformer大模型的可扩展性,使“Scaling Law”能够在更多的模态领域得以发挥,最终在多模态领域复现出LLM大模型的“智能涌现”。

理想中的多模态大模型应呈现哪些形态与特征?中金研究认为其首先是要多模态且具备跨模态的泛化能力,即在训练端模型是基于文字、图像、视频、音频等多种模态训练,具备对于多种不同模态的感知和推理能力,即能够实现“Any-to-Any”的多模态、跨模态的输入和输出;并且需要具有LLM大模型“智能涌现”的特征,即能够充分发挥Transformer大模型的可扩展性,在达到一定的参数量规模后,能够“涌现”出一定的泛化多模态理解及生成能力,具备一定的Zero/Few Shot推理、上下文学习、CoT思想链等更高阶的模型智能表现特征。而如何去构建、训练符合以上特征目标的MLLM多模态大模型在近年来也已成为了人工智能产学研界的一大热点。

图表:多模态大模型应当能够实现“Any-to-Any”的多模态、跨模态生成

资料来源:Pika官网,中金公司研究部

► 多模态大模型更符合人类感知世界的方式,具备处理更为复杂任务的可能。人类的智能是接受多种感官模态的输入并进行输出,而多种模态之间的跨模态混合交互也起到了互补的作用,进而产生了更高维度的“智能”来处理更为复杂的任务。而多模态大模型就是要在训练、输入、输出数据的模态丰富度上与人类智能进一步对齐,进而力求实现更高维度的智能“涌现”,以及处理更为通用、泛化的复杂任务的能力。

► 多模态大模型具有更为丰富的学习数据来源,具有进一步突破能力上限的机会。单模态语言大模型仅基于人类的文字语料进行训练,其数据来源有限且正处在迅速的学习消耗过程中。但多模态大模型可以利用自然界中天然存在的更为丰富的图像、声音等数据与信息进行训练,中金研究认为其“智能”的上限在理论上或将高于单模态大模型。

► 多模态大模型在交互上更贴近人类的习惯,提供更优化的大模型使用体验。单模态语言模型在交互方式上较为单一,而多模态大模型能够对多种类型的输入进行支持,用户也得以以更加灵活便捷的方式与模型进行交互操作,达到更为友好的使用体验。

图表:产学研界旨在多模态领域“复刻”LLM语言大模型的成功

资料来源:《Multimodal Foundation Models: From Specialists to General-Purpose Assistants》(Tang et al., 2023),中金公司研究部

产业界对于多模态大模型的探索有何进展?

如何去“学习”多种模态的特征以及模态之间隐含的关系是构建多模态大模型的重点。在构建和训练多模态大模型时,本质上是要把多种不同的模态在一致的特征向量空间中进行表征,进而让模型能够对不同模态隐含的特征以及不同模态之间隐含的关系进行学习。在这一过程中,需要找到更合适的对于各种模态信息的特征表达,以及让模型训练出更合适的将不同的模态特征映射至一致的向量空间中的投影方法,进而让模型达到更好的推理效果,最终实现多模态领域的“智能涌现”。

多模态大模型的一种典型架构:各模态的编解码器+投影/压缩网络+生成网络。对于多模态大模型的架构,过去数年来产业界也尝试了多种路线的探索,其中一种较为典型的架构如下图所示,主要由三部分构成。

► 文字、图像、视频等多种模态的编解码器(多模态信息的感知和抓取),编码器负责将输入的多模态信息转换成特征表示,进而能够让模型对输入的信息进行理解。由于编码器的类型可以有多种不同的选取方式,因此其转换出的特征表示的形式和维度仍存在区别,实际上是处于不同的向量空间中;解码器则负责在最后将前部分模型输出的特征表示解码还原成文字、图像、视频等不同类型的模态信息,最终得到模型输出。

► 投影/压缩网络(多模态信息的对齐和交互),多模态大模型需要对不同模态的特征进行理解和处理,因此在不同模态的输入信息通过编码器得到特征表示后,还需要通过中间层的投影/压缩网络进行处理,使得不同模态的特征能够在一致的向量空间中进行表征,进而能够让后续的生成网络进行统一处理。同理在生成网络输出向量特征后,也需要对其进行反解,将其解压缩并还原至原有的向量空间中。

► 生成网络,其处于多模态大模型的中间部分,负责将不同模态信息的特征表示在统一的向量空间中进行处理,进而达到模型预设的多模态任务训练目标。目前产业界的许多工作是希望将大模型在语言领域“Scaling Law”的成功在多模态领域复现,因此目前很多多模态大模型中的生成网络都是由Transformer来担当。

图表:多模态大模型的一种典型架构

资料来源:《NExT-GPT: Any-to-Any Multimodal LLM》(Wu et al., 2023),中金公司研究部

多模态大模型领域的技术栈尚未收敛。实际上目前产业界在多模态大模型的架构路线上也仍存在一定分歧,比如有一些路线是采用“全Token化的方式”,即直接将文字、图像、视频等不同的模态信息特征都进行Token化,在LLM能够一致处理的向量空间中进行表征,进而用Transformer进行统一处理。但也有一些路线是对于不同的模态选取不同的方式进行特征提取和处理,再通过训练多模态转换器或者感知器,对特征表示进行投影,进而让预训练好的LLM对图像、视频等其他模态特征进行感知和处理。总体来看,产业界对于多模态大模型的技术路线探索尚未成熟收敛,不同的路线都有大量的工作正在尝试进行中。

图表:多模态大模型领域的技术栈尚未收敛

资料来源:《How to Bridge the Gap between Modalities: A Comprehensive Survey on Multimodal Large Language Model》(Song et al., 2023),中金公司研究部

多模态大模型的探索并非一蹴而就,近年来产业聚焦在视觉等重点模态领域逐步突破。对于中金研究上文所提到的理想中的“Any-to-Any”大模型,Google Gemini、Codi-2等均是处于探索阶段的方案,其最终技术方案的成熟还需要在各个模态领域的路线跑通,实现多模态知识学习,跨模态信息对齐共享,进而实现理想中多模态大模型。现阶段产业主要的工作还是聚焦在视觉等典型的重点模态,试图将Transformer大模型架构进一步在图像、视频、3D模型等模态领域引入使用,完善各个模态领域的感知和生成模型,再进一步实现更多模态之间的跨模态打通和融合。

► 图像:早在2023年LLM的流行之前,过去产业界在对于图像的理解和生成模型领域已经打下了坚实的基础,其中也产生了CLIP、Stable Diffusion、GAN等典型的模型成果,孕育出了Midjourney、DALL·E等成熟的文生图应用。而更进一步,产业界也在积极探索将Transformer大模型引入图像相关任务领域(ViT,Vision Transformer;DiT,Diffusion Transformer),探索统一视觉大模型的建立,以及将LLM大语言模型与视觉模型进行更加密切的融合,包括近年来的GLIP、SAM、GPT-V都是其中的重点成果。

► 视频:由于视频本质上是由很多帧的图像叠加而成,因此本质上语言与视频模态的融合和语言和图像具有相当多的互通之处,产业界也在尝试将图像生成模型迁移到视频生成,先基于图像数据进行训练,再结合时间维度上的对齐,最终实现文生视频的效果。其中近年来也产生了VideoLDM、W.A.L.T.等典型的成果,并在近期也出现了Sora这样具有明显突破性效果的模型,其在视频生成领域沿用了Diffusion Transformer架构,并在视频类场景首次呈现出“智能涌现”的迹象。

► 3D模型:实际上3D是由2D+空间信息构成,因此类似于由图像生成到视频生成的延伸,2D图片的生成方法理论上也可以迁移到3D中。近年来产业界也在积极探索将图像领域的GAN、自回归、Diffusion、VAE等骨干模型在3D模型生成任务中的扩展,其中也产生了3D GAN、MeshDiffusion、Instant3D等重点的模型成果。但相比图像和视频生成,目前的3D模型生成技术还处于早期发展阶段,相关模型的成熟度仍有较大提升空间。

► 音频:语音相关的AI技术在过去多年中已经较为成熟,但近年来Transformer大模型在AI音频领域的投入应用,还是成功推动了相关技术再上台阶,实现更优的音频理解和生成效果,其中重点的项目成果包括Whisper large-v3、VALL-E等。

► 更多模态:除了上面中金研究提到的几种典型的模态之外,还有很多目前没有办法很好的以数据形式抓取的模态(比如嗅觉、味觉、触觉等,可能是以脑信号的形式,需要脑科学的进一步发展),以及应用场景相对细分的模态(比如结构化数据等)。中金研究认为未来AI在多模态的领域拓展以及模型能力边界的提升仍有无限的可能。而在下面的各个章节中,中金研究也会依次从图像、视频、音频、3D等几个典型的模态领域入手,分别就产业技术发展的脉络和未来趋势进行阐述。

图表:典型的多模态领域——视觉场景近年来的主要工作概览

资料来源:《Multimodal Foundation Models: From Specialists to General-Purpose Assistants》(Chunyuan Li, Zhe Gan, Zhengyuan Yang, Jianwei Yang, Linjie Li,Lijuan Wang, Jianfeng Gao, Microsoft Corporation, 2023),中金公司研究部


图像:技术路径收敛,应用百花齐放


技术演进:源起CNN,扩散模型为主流生图架构

以深度学习为基、GAN为起点,AI生成图像的技术发展历史经历四大阶段。最早期阶段中,20世纪末的深度学习技术,尤其是卷积神经网络(CNN)在图像特征识别的能力为机器生成基础图像奠定了基础。此后,变分自编码器(VAE)和生成对抗网络(GAN)的问世,让计算机得以使用概率分布和对抗式训练精炼生成结果,为AI生成图像技术迈出了重要一步。随后,扩散模型(diffusion model)的出现,以其生成高质量图像的能力超越了传统以GAN为主流的生成模型。自2022年以来,基于diffusion model的AI生成图像模型呈现繁荣增长,各类生成模型在“理解”指令和绘画能力上都有大幅提升,显著提升了AI生成的图像质量和降低了优质内容的创作门槛。

图表:扩散模型已成为目前多模态图像技术的主流路线

资料来源:Fabianmosele,量子位,OpenAI官网,Stability AI官网,中金公司研究部

展望未来,Image caption(图像描述)路线凝聚图文对齐共识,有望进一步推广。多模态技术进展迅速,数据重要性凸显,在实际应用中多模态数据不易获得、标注欠缺细节,而合成数据可提升训练的多样性及模态对齐的精确度,成为有效的数据增强手段。根据DALL-E 3论文结论[1],在训练模型时结合合成标注有望提升模型CLIP Score。中金研究认为Image caption将成为合成标注训练文生图模型的重要路径,普遍操作是使用微调后的图-文预训练模型生成高质量文本描述,此外细致的长文本标注将更有效优化模型表现。当前OpenAI DALL-E 3、华为PixelArt-α均积极探索该路线。

立足二维图像出发点,向三维领域延拓。文生图模型DiTs依托Transformer架构实现更强大的计算能力,为处理更复杂的3D、视频数据奠定基础,在后续OpenAI视频生成模型Sora中得到应用。中金研究认为随着2D图像生成模型在效率、一致性等方面的提升,有望推动3D模型与视频多模态领域技术变革。


视频:优化时序对齐,生成效果突破


技术基础:图片生成模型叠加时序对齐实现视频生成

视频本质上是一系列图像的连续展示,图片生成是视频生成的基础。图片生成的主流技术即扩散模型同样也是视频生成的主流技术,目前主流的文生视频模型的技术路线为基于文生图模型,通过在时间维度加入卷积或注意力,在生成的关键帧基础上实现时序对齐得到视频。在此基础上,插帧+超分、初始噪声对齐、基于LLM增强描述等方法均有助于增强时序对齐能力,实现更高质量的视频生成。Zero-shot领域的一系列研究则能够实现无需训练,直接将图片生成模型转化为视频生成模型。

图表:基于扩散模型的文生视频模型主要文献

资料来源:《A survey on video diffusion models》(Xing et al., 2023),中金公司研究部

模型改良:Transformer代替U-Net,模型可拓展性大幅增强

Transformer代替U-Net,可拓展性更强的视频生成模型得以出现。前文中金研究提到,基于U-Net的扩散模型是文生视频模型的主流技术,而这类扩散模型参数量相对较小,可拓展性相对较弱。为解决模型的可拓展性问题,学界和业界将Transformer架构引入视频生成任务,具体可以分为两类:1)将Transformer代替U-Net引入扩散模型,构建DiTs(Diffusion transformer);2)构建基于纯Transformer的视频生成模型。由于Transformer的全注意力机制产生的内存需求会随着输入序列的长度增加而呈现平方增长,因此处理高维信号(如视频)时,模型对计算量需求更大,训练和推理成本或明显高于基于U-Net的扩散模型。

Sora:基于DiTs架构,实现长视频的高质量生成

Sora展现了高质量的长视频生成能力,相较先前的视频生成模型,中金研究认为其最为突出的创新之处在于:1)视觉编码器实现时间空间维度压缩并进行Patch(图块化)处理,使得长视频生成成为可能;2)借助Transformer的位置编码性质,使用不限制输入形状的DiTs,能够创新性地实现任何像素和长宽比视频的生成;3)中金研究判断其训练数据集中可能包含带有物理信息的合成数据,从而使模型展现出对物理信息的初步理解能力;4)复用DALL·E 3的重标注技术,对视频数据生成高质量文字标注,借助GPT对提示词进行扩展,提升生成效果。

图表:Sora可能的模型架构

资料来源:Sora技术报告,中金公司研究部

视频生成模型展望:物理信息感知增强+视频生成时间延长。中金研究认为Sora具备了初步的物理关系理解能力,在视频生成时长上也实现了从秒级到分钟级的突破。展望未来,伴随参数规模的提升和训练数据的增加,中金研究认为视频生成模型或能习得更多“物理运动规律”,从而生成更贴合实际的视频;另一方面,模型规模的提升直接表现为对视频处理能力的增强,类似自然语言领域LLM的迭代,中金研究认为生成视频时长或持续提升,未来“短片”甚至“电影”的生成或将成为可能。


语音:Transformer加持,AI配音兴起


技术前沿:Transformer加持下的语音合成发展更趋成熟

语音技术沿革可分为三阶段,深度学习驱动发展加速。1950年代语音技术处于技术早期,模版匹配、串联合成等技术得到发展,效果有限;1980年代引入以HMM(隐马尔可夫模型)为代表的参数统计模型,增加对语音信号的建模精度,提高语音识别的准确性以及语音合成的质量;2009年后步入深度学习时代,采用神经网络进行声学建模,更灵活地捕捉文本特征与语音特征的复杂映射,从DNN、RNN到Transformer,语音技术迎来高速发展。

图表:深度学习驱动当前语音技术快速发展,Transformer成为主流路线

资料来源:厦门大学语音实验室,中金公司研究部

语音技术主要向增强泛化能力的方向持续延伸,Transformer架构引领语音技术迭代浪潮。泛化能力是指模型对于未经训练的数据的适应能力,技术基础来自具有强大学习能力的网络架构和大量多样化的数据训练。语音模型泛化能力的增强主要体现在:从覆盖单一语种到多语种和方言,从处理人声到自然声音、音乐,从简单语音识别或合成到零样本学习和多任务集成。目前Transformer已成为语音技术的baseline(基线)架构。Transformer模型具备强大的泛化能力,高度受益于其并行训练能力和多头注意力机制:多头注意力机制允许模型从多角度学习序列特征,在捕捉复杂信息和处理长依赖问题时表现出色,提升模型在复杂场景下的鲁棒性;并行训练能力能够帮助模型处理更大规模、多样化的数据,间接提升模型通用性。


3D:产业持续探索,方向初见端倪


3D生成任务要素:数据表征、数据集、生成模型、应用

3D生成领域的整体思路:2D+空间信息。中金研究认为视频和3D的生成均可以视为2D图片生成任务的延伸,其中视频即为在图片生成的基础上增加时间信息,实现时序的对齐;3D则为2D的基础上增加空间信息,实现高维的拓展。因此,在2D图片生成领域的主流主干模型(GAN、自回归、Diffusion、VAE等)均可以在3D生成任务中实现模型扩展。在研究3D领域之前,《Advances in 3D Generation: A Survey》(Li等,2024)对3D领域的数据表示、训练数据集、训练数据集、3D生成模型种类、应用等做了归纳总结:

► 3D数据表征:包括网格(Mesh)、点云(Point clouds)等显式表示,以及NeRF(Neural radiance fields,神经辐射场)等隐式表示,还包括体素(Voxel grids,3D空间中的像素)这类混合表示,其中NeRF具有强大的三维表达能力和潜在的广泛应用范围,是3D数据表征的关键技术;

► 3D数据集:包括3D数据(数据量和精度有限)、多视角图片(用途最为广泛)、单张图片(使用仍具有较大难度)等。目前3D对象数据集仍然稀缺,代表性的数据集包括ShapeNet(Chang等,2015)构建了5.1万个3D CAD模型,为3D数据集的充实做出开创贡献;Deitke等(2023)构建了ObjaverseObjaverse-xl数据集,分别有80万和1000万个3D对象;

► 3D生成模型:前馈生成(通过前向传递中直接生成结果)、基于优化的生成(每次生成需要迭代优化)、程序生成(根据规则创建3D模型)、生成式新视图合成(生成多视角图像);

► 3D应用:包括3D人生成、3D人脸生成、3D物体生成、3D场景生成等应用。

图表:3D生成领域涵盖3D表示、3D生成模型、数据集、应用

资料来源:《Advances in 3D Generation: A Survey》(Li et al., 2024),中金公司研究部

3D生成可能是未来视觉多模态领域取得突破性进展的下一场景。回顾生成类大模型的发展进度,首先以GPT-3为代表的大模型在语言领域最先取得突破;接下来扩散模型逐步成熟使得图片生成任务能够很好完成;以图片为基础,中金研究认为视频可以看做图片在时间维度的扩展,以Sora为代表的大模型也产生了良好的效果,而3D模型则可以看做图片在空间维度的扩展,中金研究认为3D生成模型或成为下一个阶段学界和产业界进一步突破的方向,建议重点跟踪和关注前沿进展。

3D模型生成技术的突破也会使产业迈向“世界模型”的探索更近一步。中金研究认为,若3D生成模型取得突破,则意味着大模型对空间信息的理解能力明显增强,能够学习到三维世界中的信息并生成三维物体和场景。结合视频(大模型对动作的时间变化的理解能力)领域取得的突破成果,大模型或能够具备对物理世界的时空信息具备更加完整把握能力,因此中金研究认为3D模型的潜在突破进展或能对构建理解一定物理信息的“世界模型”更进一步。


注:本文摘自中金研究2024年3月5日已经发布的《人工智能十年展望(十七):大模型兴起之后,多模态涌现之前》,分析师:于钟海 S0080518070011 ;王之昊 S0080522050001 ;魏鹳霏 S0080523060019 ;谭哲贤 S0080122070047;肖楷 S0080523060007 ;游航 S0080523010001 

格隆汇声明:文中观点均来自原作者,不代表格隆汇观点及立场。特别提醒,投资决策需建立在独立思考之上,本文内容仅供参考,不作为实际操作建议,交易风险自担。

相关阅读

评论