中金:AI迈入通用模型时代,迎接智能融合浪潮

本文来自格隆汇专栏: 中金研究 作者:周子彭 李娜 陆趣等

谁将引领这一场浪潮?

摘要

人工智能(AI)是模拟智能的系统,当前尤指计算机系统。人类模拟智能的想法由来已久,但直到电子技术取得进展,这一领域才得以真正发展。AI发展并非坦途,历经几轮兴衰,通用性缺失一直是痛点。如今,以Transformer架构为代表的深度学习算法的成功,标志着AI迈入了通用模型时代,开始跨越不同智能场景模拟间的藩篱,归纳真实世界规律的能力取得了里程碑式的突破。在高性能算力和高质量数据的支撑下,AI性能还展示出规模定律,智能水平不断提升,让许多人对通用人工智能的实现燃起了希望。

本轮AI具备了应用普遍、催生创新、可改进的通用目的技术(GPT)特征,并体现出广泛的融合潜力。其应用潜力和商业前景已得到初步印证,AI或已跨过S型曲线的第一拐点,进入“研发-应用”循环迭代的加速期。在智能成本快速下降的推动下,一场广泛而深刻的智能融合浪潮正蓄势待发。而这一浪潮将在生产端推动人类与AI的深化分工,提升生产效率的同时改变劳动结构;将在消费端激发大量智能产品需求,并对社会形态产生深远影响。

那么谁将引领这一场浪潮?通用目的技术影响实体经济依靠初级创新与次级创新,对应着AI研发和应用的两个阶段。AI技术跨过S型曲线第一拐点的大背景下,哪个国家会在“研发-应用”的循环迭代中胜出,哪个国家就有望成为本轮AI融合浪潮的引领者。AI在研发端的优势取决于智能硬件的性能与规模、高质量数据获取能力、优秀人才的储备以及宽松的创投环境,这往往带来一定的先发优势;而AI在应用融合端的优势则更依赖多元的市场和鼓励融合创新的政策环境。

为评估各国AI“研发-应用”的循环迭代强度,中金研究构建了研发层的“技术活跃度”指标以及应用层的“市场友好度”指标,两者合并后得到“AI发展指数”。总体而言,美国与中国的AI发展指数最高,是引领本轮智能融合浪潮的前两名国家。美国在技术活跃度上具有较大优势,而中国在市场友好度上略胜一筹。德、日、英居于第二梯队,与中美差距较大,印度由于市场友好度较高,紧随第二梯队之后。割裂的全球市场可能会阻碍AI的价值实现并抑制创新,这或许会促使部分国家在未来的智能融合浪潮中深化合作。

正文


一、AI进入通用模型时代


(一)人工智能是模拟智能的系统

人工智能(Artificial Intelligence,AI)指的是模拟智能的系统,在当今的语境中更多指的是计算机系统或与之相关的机器系统。人工智能是一个既古老又年轻的概念。言其古老,是因为“模拟智能”的思想源远流长,在古希腊、古罗马传说中就已出现过能完成特定任务或行为的类人智慧体的描绘[1]。谈及年轻,则是因为“Artificial Intelligence”这一名词直到1956年才在麦卡锡、明斯基和香农等人工智能先驱们组织的达特茅斯会议上被正式提出。此后AI研究者发展出了多种基于逻辑规则、概率推理等模拟智能的方法。其中,机器学习是人工智能的一个重要领域,它通过让计算机系统从数据中学习和发现规律[2],进而做出预测或决策,而不需要明确的编程指令。根据训练过程中是否使用标记数据或进行反馈,机器学习又包括监督学习、无监督学习和强化学习。近年来,AI取得的许多关键成果,包括大语言模型(LLM),则来自机器学习的一个子领域——深度学习。深度学习使用多层神经网络来模拟生物脑的功能[3],从而使计算机系统能够进行复杂的数据处理和模式识别等活动。当前,深度学习在图像识别、语音识别、自然语言处理和自动驾驶等领域都取得了丰硕的成果。图表1.1是对上述人工智能不同方法间关系的一个简单梳理。

图表1.1:人工智能包含机器学习,机器学习包含深度学习

资料来源:Prince S J D,Understanding Deep Learning,2023;中金研究院

既然是模拟智能,那就不得不提及人类要模拟的智能究竟是什么。因为涉及多个学科和不同视角,直接给智能下定义是一件异常困难的工作,对其内核含义的探讨甚至也远超本章的内容范畴。如果只是简单的诠释,那么智能就是一个多层次、复杂多维的概念,涵盖了认知能力、学习能力、推理能力、问题解决能力以及其他与信息处理和理解相关的功能,这些功能是为了让智能体在现实世界各种变化的场景中进行活动、实现目标[4]。上述的阐释依然复杂,但如果从智能体“要干什么”去思考,其实可以更直观地理解智能究竟是什么。辩证唯物主义者们相信真实的世界中存在着客观的规律或者法则,并将其称之为真理,他们认为世界真理决定着世间万物的运动方式以及相互间的联系[5]。从这个角度讲,智能体要干的工作就是根据万事万物的运动以及联系的信息,反推“世界真理”。这些反推出来的规律和法则与“世界真理”越接近,那么该智能体的智能水平就越高。比如,为什么会觉得牛顿和爱因斯坦的智能水平高,就是因为他们根据各类世界信息反推出的万有引力、运动的三大定律以及相对论,比其他人更加接近世界真理。

如果说智能体的工作是通过联结万事万物的信息,从中寻找规律来反推世界真理,那么收集和处理信息类型的数量,也会决定其智能水平的高低。比如说某智能体在处理世界信息时存在限制,只能处理真实世界局部的信息,那么它就会像柏拉图洞穴寓言[6]中被困于洞穴的人们一样,虽然他们看到的是真实世界在墙壁上的投影,却误以为这些影子就是世界本身;他们可以总结出影子的运行规律,但这只是对世界真理的片面认知。当用这些规律来应对真实问题时,往往会出现偏误。

为了更深入地理解这一点,可以设想一个智能体A,它只能处理某个特定领域的信息,例如天气数据。虽然智能体A可以通过分析天气数据,准确预测短期天气变化,但如果一个决策中遇到涉及其他领域的问题,如社会经济发展、生态环境变化等,它就会因为信息的局限性而无法给出准确的判断。相反,如果另一个智能体B能够处理多种类型的信息,包括自然科学、人文社会、技术发展等各个方面的信息,它就更有可能从复杂的、跨领域的数据中发现更深层次的规律,推导出更接近世界真理的结论。这种多维度的信息处理能力,使得智能体B在面对复杂问题时,能够综合考虑多种因素,给出更加全面、准确的解决方案。

可以说,智能体的信息收集和处理能力的广度与深度,直接决定了其智能水平的高低。仅仅依赖局部信息的智能体,就像柏拉图洞穴中的囚徒一样,难以突破对世界真相的片面认知;而能够整合多种信息的智能体,才有可能接近世界真理,做出更为准确的判断和决策。而理解这一点,对于理解今天人工智能的发展具有重要意义。

出于便利,人们有时也会为了区分不同场景下的应用需求,对人类所具有的智能进行分类。有人根据个体能力表现差异,把智能分为语言智能、逻辑数理智能、空间智能、运动智能、音乐智能、人际交往智能、内省智能和自然辨识智能[7];也有人从方法论角度,把智能分为分析智能、创造智能、实践智能三类[8](图表1.2);还有人从认知心理学角度把智能分为理解能力、记忆能力、推理能力、计划能力四类[9]。总的来说,人们对智能的分类有不同的逻辑依据,包括认知功能、应用领域、内容和形式、先天和后天因素、个体差异和任务环境需求等,呈现出百花齐放的状态。不过从反推世界真理的角度来讲,这些看似不同类型的智能背后其实可能存在着相似的生物学逻辑[10]。

图表1.2:智能可以从多个维度进行分类

资料来源:Gardner H,Multiple intelligences: The theory in practice,1993;Sternberg R J,Beyond IQ: A Triarchic Theory of Human Intelligence,1985;中金研究院

在对智能来源的认知上,至少存在三种比较有代表性但又差异明显的看法,不过文献发表趋势显示学者们越来越认为智能是一种可被模拟的客观能力。第一种看法认为智能是超自然力的授予,是人类与超自然力相连的标志[11],这与古希腊神话中想象智慧体由神打造类似[12]。以阿奎那等神学家为代表,持这种看法的人认为人类无法也不应对智能进行模拟。第二种看法认为智能是人类特有的心理机制,依赖超脱物质世界的理念世界中的记忆,或者一些人类独有的先天结构。以柏拉图、笛卡尔、乔姆斯基等哲学家为代表,他们认为智能源于精神本质的心灵[13],或者天赋决定的心智系统[14],物质机制或许无法完整模拟人类智能。第三种看法认为智能来源于客观物质的生物器官,比如大脑,而大脑产生智能的过程可以通过科学研究得到解释和复制。神经科学的奠基人卡哈尔认为大脑的基本工作单元是神经元[15],神经元通过突触传递电信号和化学信号,突触的可塑性(即突触连接的变化)是学习和记忆的基础。诺贝尔生理学或医学奖得主坎德尔也认为智能可以通过神经科学的方法进行研究和解释[16]。这三种看法各有支持者。不过,从每年发表的与“智能”相关的新增文献所属学科占比中可以看出,专业的学者们越来越倾向于将智能纳入到生物医学、计算机科学等相对基于物质客观规律的科学研究范畴中进行讨论(图表1.3)。

图表1.3:智能相关研究学科分布变化显示出较为客观的研究逐渐占据主流

注:该图统计时合并了部分学科,统计时间截至2024年4月。

资料来源:OpenAlex,中金研究院

(二)智能模拟曲折前行——通用性不足是短板

在人工智能发展的文献中,经常可以看到类似图表1.4记录着AI发展重要事件的示意图。这些事件虽然对于AI研究者已经耳熟能详,但理解过去几十年AI的发展路径,对于认知当前AI里程碑式的突破具有重要意义。正如上文所说,一套智能模拟系统处理不同的信息能力决定该系统的智能水平,过去较长一段时间,由于AI模型的泛化和通用性较差,其在处理不同类型信息方面一直存在着隐性的壁垒,具体表现为虽然学习到了特定类型的智能,但跨场景的智能移植能力较弱。

图表1.4:人工智能发展经历起伏

注:图中纵轴表示的是人工智能发展热度&水平综合程度,用投资&研究=f(期望,成果)来表示。

资料来源:Bognar M Z,Prospects of AI in architecture: Symbolism, connectionism, actionism,2022;Francesconi E,The winter, the summer and the summer dream of artificial intelligence in law,2022;中金研究院

从上个世纪开始,模拟人类智能这一目标驱动着AI研究者们前赴后继、曲折前进的探索,过程中有过热潮也出现过寒冬,曲折历史背后暗含着一条模拟生物脑(联结主义)——模拟逻辑(符号主义)——小场景模拟(行为主义),再到联结主义复兴的演进主线。十九世纪末期,人类发现了神经系统中结构与功能的基本单位——神经元[17],经历几十年的探索和发展,人们对神经元的连接方式、作用机制等已经有了一定的认识[18]。恰逢这一时期电子学取得突破性进展,计算机也随之诞生,构建一个电子的“神经网络”来模拟神经元活动,成为了模拟智能最直觉的方式,这就是“联结主义”。当时最具代表性的是感知器[19],它是一个单层神经网络,能完成简单的图像分类任务,比如区分三角形和圆形,掀起了第一波人工神经网络的热潮。可惜单层神经网络很快就遇到挫折。首先,上世纪六十年代的算力发展程度非常有限,当时算力最强的计算机是IBM7090,内存和处理速度甚至远比不上现在的普通笔记本电脑,只能处理很小规模的数据,无法为设想中的神经网络算法运行提供支撑。其次,单层神经网络能做的任务非常有限,与人类想象中的“人工智能”差距甚远,当时也没有发展出求解多层神经网络的有效算法,更无从谈起算法是否通用。尤其是1969年,AI领域知名科学家马文·明斯基发表《感知器》[20],对单层神经网络算法的局限性进行了证明和批评。随后,大众对于人工智能的热情冷却下来,神经网络领域的学术研究近乎停滞,从而引发AI发展的第一次寒冬。

利用电子设备模拟生物脑的联结主义遭遇挫折,但科学家们仍在尝试另一条路径,那就是抛弃大脑的生物属性,直接通过模拟逻辑来实现智能,这就是符号主义。符号主义者们认为,智能可以理解为按照逻辑规则来操作的符号运算[21]。如果把知识提炼成规则,再把规则转化为计算机符号,将这些符号输入计算机,就可以让计算机掌握人类的逻辑,从而表现出“智能”,其中最为典型的代表即专家系统。如世界上第一个专家系统DENDRAL[22],可以根据输入的化学分子式信息来分析判断有机化合物的分子结构。在符号主义盛行阶段,各类型的专家系统陆续推出。然而,符号主义的发展很快也遇到了阻碍。首先,从理论层面来说,专家系统很容易就会面临规模爆炸的问题[23],比如旅行商难题,给定多个城市和每两个城市之间的距离,求解途经每个城市一次后返回出发城市的最短可能路径,随着城市个数的增加,遍历所有情况来寻找最短路径的计算复杂度急速上升,计算机系统需要耗费大量时间来求解,甚至理论上需要几十、几百年才能解出答案。其次,专家系统里面所有的规则都需要预先输入到系统中。一方面把现实生活中的问题和解决方案拆解为“如果符合某条件,那么推出某结论”的规则,工作量巨大,另一方面,当遇到新的场景时,如果系统中没有提前输入的规则,就可能无法运作。的确有人尝试过输入所有规则,构建一个“无所不能”的专家系统,如1984年美国微电子与计算机技术公司的CYC项目[24],到如今21世纪该项目已经累计百万数量级的概念和规则[25],但距离目标的“百科全书”仍然遥遥无期。随着这些缺陷逐渐暴露,人们发现专家系统能完成的任务在广度和深度上仍然有限,到了80年代末公众对人工智能的热情再次消退,这让AI的发展遭遇了第二次寒冬。

虽然经历了两次严重挫折,但人工智能的研究并未停下脚步,如果符号主义处理复杂场景时会遇到规模爆炸的问题,那是不是可以先把AI的应用限制在简单的小场景中?于是AI开发者们“退而求其次”,将AI的研发与应用聚焦单一场景中,以此来提高AI处理某类具体任务的表现,这就是行为主义的思想。在这种思路下,许多机器人应运而生,如1990年成立的iRobot公司推出的用于太空探索的六足行走机器人Genghis、水下扫雷机器人Ariel和后来的家用扫地机器人等。但行为主义的智能迁移能力依然较弱,比如扫地机器人的算法,很难用来处理翻译或者图像识别的问题。针对不同的场景任务,行为主义还是需要重新预先编程并设计新系统来完成特定的任务,无法发挥规模效应,这也限制了AI的发展和应用。

小场景尝试让AI发展经历了一段过渡期,智能探索几经曲折后,随着算法和算力的进步,联结主义再次登场。虽然早期联结主义陷入低谷后神经网络研究遇冷,但仍有学者没有放弃该领域的研究,陆续出现了可用于联想记忆的Hopfield网络[26]、解决多层神经网络计算问题的反向传播算法[27]、前馈的卷积神经网络[28]等,杰弗里·辛顿于2006年提出了深度学习的概念[29]。深度学习在机器学习的基础上引入了模拟人脑的多层神经网络,用更强大的计算能力让机器在大规模数据中提取特征,神经网络层数越多,对输入特征抽象的层次越深,对输入的理解也越准确, 更接近于人脑对信息的认知方式。此后,深度学习在计算机视觉、自然语言处理等领域都有较好表现,如深度学习模型在ImageNet图像分类挑战赛中将错误率降低了近一半,击败传统模型[30]等,深度学习成为重要探索领域。不过当时发展出的AI仍是适用于特定领域的,如打败围棋世界冠军的AlphaGo无法将下棋的优越表现迁移到其他领域。

前几轮AI发展的一个共同的隐性问题在于通用性的缺失,只模拟到了特定类型的智能,无法对真实世界规律进行较为全面的总结和把握,模拟出的智能水平受限。诚然,智能可以看作多方面能力的集合,比如语言智能、逻辑数理智能、音乐智能等,模拟特定智能的方法短期来看也许立竿见影地让AI掌握了特定问题的求解能力,但实际上AI被不同类型智能的藩篱阻隔,无法对不同类型的信息进行通用性处理,这会阻碍不同领域间规律的类比和迁移,对现实世界的认识仅限于特定领域,难以形成更全面的视角,因此模拟的智能表现水平受限。或许正是因为没有意识到这一隐性问题,通用模型一直以来可能都不是AI研究的重点。如果有一种通用模型,能让AI在一致的框架下对不同类型的信息进行处理,从而从信息中刻画事物的联系,那么AI就有可能更全面、更深入地认识世界和总结规律,提高智能水平。

(三)新架构“意外”突破,AI迈入通用模型时代

不同于前几轮AI热潮,本轮AI的发展在处理不同类型信息的通用模型方面取得了重要的突破。

2017年,谷歌团队提出了Transformer架构[31],本意只是解决当时机器翻译存在的长句信息丢失、计算效率低等问题。Transformer是一种深度学习架构,基于多头自注意力机制,与人脑处理信息时类似,能忽略次要细节、专注于关键信息,能捕捉到序列中的相隔长距离的词语之间的关系,从而尽可能识别序列中的信息。同时,多头注意力机制形成多个子语义空间,允许模型同时关注输入序列中的多个不同位置,捕获更丰富的上下文信息。此外,Transformer的多个注意力头可以并行计算,不需要等待前面的单词计算完成,可以更高效地处理大规模序列数据。这些特点让Transformer架构展现出了优越的长序列数据处理能力,可以很好地完成机器翻译任务。不过“意外”的是,人们发现,各种类型的数据都可以看作序列用Transformer来处理,这让Transformer表现出了通用模型的潜力。Transformer一般通过“词元(Token)化”处理数据,它将每种类型的数据转换为可以被机器处理的一维标准化序列,语言、动作、影像等各种符号化或者非符号化的数据都存在“词元化”的可能。如文本数据本身就是以序列形式存在,视频可以看作时空维度上的一系列图像序列。在处理多模态数据时,Transformer可以将文本数据处理为词元,将图像处理为图块(Patches),将机器人的动作控制转化为机器人元动作[32](Robot Vocabulary)等,触觉[33]和味觉[34]等数据的处理也在探索中。此前,对不同类型数据信息的处理是由不同的模型进行,这导致了智能模拟的分割,如从文本数据中总结规律学习到语言智能,音频数据可以学习到音乐智能,数学中的“几何定理-证明”数据可以学习到逻辑数理智能等[35],而由于Transformer这一算法架构可以用相对一致的思路处理各种类型的数据,将这些智能的学习统一到了一个架构之下(图表1.5),打破了不同类型的信息处理壁垒。

图表1.5:Transformer打破了不同智能模拟间的藩篱

资料来源:中金研究院

通用模型的出现打破了不同信息处理的壁垒,这是AI智能水平提升过程中里程碑式的突破。对于一种特定类型的数据信息来说,Transformer架构展现出了总结和归纳其规律的能力。以文本数据为例,语言作为人类交流的工具,是人类思维的外化,因此语言文本中蕴含了人类已经发现的、总结好的那部分规律。Transformer架构将输入的文字序列转化为词元,对应生成向量,映射到向量空间中。向量的位置、向量之间的距离,对应表达出原始文本中的含义和联系,所以生成的其实是一个富含人类逻辑规律的向量空间。以“意大利的首都是罗马,西班牙的首都是马德里”这句话为例,某个国家的首都是哪里,这是人类总结出来的规律,这条规律在向量空间中表示为国家和首都城市之间相对稳定的方向和距离关系(图表1.6),“老鹰会飞,猎豹会跑”亦是如此。当基于Transformer架构的大语言模型处理足够多的文本数据时,就能挖掘到数据之间存在的这种较为稳定的联系,表面上是从概率角度推断出了句子里下一个可能出现的词元,实际上则是总结出了这种稳定联系所代表的规律,且运用了规律进行预测。而Transformer架构通用地处理各种类型数据信息,则是打通了各种类型信息中所蕴含的规律空间。如果说语言文本中蕴含的规律是人类思维的结晶,那么图片、视频、动作等数据中蕴含的规律包含了更多维度的信息,这些多模态的信息相结合,反映出现实物理世界的规律,包括人类已经发现的和尚未发现的。Transformer架构处理这些不同模态的数据信息,生成的向量空间就是各类型信息中所蕴含规律的空间。如一段熟透的苹果从树上落地的视频,包含了物体在空间运动、重力等物理现象和规律,如果再增加苹果落地响声的音频、对苹果和地面的触感、文字描述等,将这些多模态的数据放到通用模型中进行处理,从每种模态的信息中总结规律,并对规律进行迁移、交叉运用,就能更全面地刻画这一现实世界中的现象,对这个问题的认识也逐渐逼近现实世界的真实情况。这种跨领域的规律总结也可以激发出新的想法,通过寻找不同领域的共同结构,对产生智能的信息进行压缩和类比,挖掘到深层次的规律,从而发现世界中不同事物的新联系,这在一定程度上可以理解为创造力的来源[36]。如果说每种模态的信息是从某一角度去刻画世界[37],那么通用模型处理了各种模态的信息,就可以尽可能完整的刻画出真实世界,如同根据三视图还原立体图形一样。对真实世界的刻画越全面,反推出来的规律和法则与客观存在的“世界真理”越接近,这是AI智能水平提升的一大突破。

图表1.6:文本生成的词向量空间蕴含规律示意图

注:文本嵌入三维向量空间示意图,向量位置和距离表示了文本背后蕴含的规律,为了方便展示,此图用三维空间示意向量空间。

资料来源:Gabriel Furnieles,Transformers in depth,2023;中金研究院

Transformer架构的通用性潜力为AI迈入通用模型时代打开了大门,进一步加快数字智能和具身智能的发展。如前文所述,想要模拟出表现更好的智能,需要一种能把现实世界各维度信息有机结合的通用模型,从文本数据到多模态数据,Transformer架构打破了这些不同类型数据信息的处理壁垒,目前展现出了作为通用模型的潜力。AI从学习人类写在文本中的规律,到学习真实世界普遍存在的现实规律,通用模型对多维信息的处理带来智能水平提升,将逐步展现出通用优越性,AI或将迈入通用模型时代。当然,通用智能模拟最终的答案也并不一定是Transformer,或许未来会发展出优于Transformer的通用模型架构,而那将在现有基础上更利于AI发展。通用模型加持下,未来两种AI的发展方向更为明确,发展速度加快。其一是数字智能,指以虚拟智能助理形式存在的AI,可能仍以移动终端、互联网为载体,通过AI大模型对用户输入的文本、图像、视频、语音等信息进行处理,理解用户指令和需求,进行推理、规划等完成任务,内置长短期记忆功能,长期记忆依靠外挂知识库和增强检索,并能根据任务要求和解决方案来发布指令或调用工具,这种形式的AI将覆盖大多数需要人类脑力完成的任务。其二则是具身智能,主要指智能和物理实体的结合,通用模型促进具身智能快速发展,如人形机器人可以将感知、决策和执行加以统一,通过传感装置感知和收集各种类型的环境信息,这些信息不仅仅包括上述文本、图像、视频等,还可能包括了传感器从环境中直接获取的嗅觉、触觉、味觉、磁场等信息,这些数据目前储量较小,需要配合高精度传感器等进行收集,这些信息都能在通用模型的驱动下的“大脑”中进行处理,完成分析决策,驱动四肢输出交互、完成任务等,也正是由于综合处理了多维度的信息,具身智能对真实世界的认知更为全面,智能表现更好,这种形式的AI将覆盖越来越多人类需要付出体力完成的任务,或将深度进入人类社会和人们的生活。当然,通用模型时代,算力和数据同样重要,模型如何提高性能,以实现“反推世界真理”?或许有一些潜在的答案值得讨论。

(四)规模定律:最好的答案?

如果说通用模型让AI打破了不同信息处理的壁垒,学会了从多维度的信息中总结和归纳规律,那么数据和算力就是重要的支撑因素,规模定律则回答如何提高性能表现,更加接近真实世界规律。

基于Transformer架构的模型表现出良好的规模定律(Scaling Law)。本轮AI性能和规模之间呈现出规模定律,随着模型训练过程累积的算力、参与训练的数据量、参数量的增大,模型表现将平稳、可预测地提高,即模型的效果越好[38]。在后续研究中,发现规模定律适用于多种模态[39]、具体的下游任务[40]等,规模定律也并非Transformer架构的专属,在深度学习领域的多种模型中都成立,但目前Transformer架构上表现出的幂律关系更为良好[41]。也就是说,普遍意义上,扩展模型的规模可以有效降低模型的损失,提高模型表现的精度。其实规模定律提出之前,已有研究者从AI历史发展中得出“苦涩的教训”,即应该寻找随着算力规模增加能持续扩展的通用方法,有效利用大规模算力来发挥作用[42]。

规模定律的意义在于,对如何提高通用模型的性能表现,使之更接近真实世界规律做出了潜在的回答。通用模型能将各种类型的信息进行整合,用更全面的视角去总结和归纳规律。现实世界的复杂性意味着需要大量信息的输入,对应到通用模型则是需要扩展规模。以文本数据为例,人类语言出现已久,文本中包含了各种方面、大量的逻辑规律信息,参数比较少的通用模型无法完整刻画整个规律空间,需要足够多的参数形成基向量才能将之刻画出来。因此,随着基于Transformer架构的大语言模型参数量越来越多,获取足够多的基向量去刻画规律空间的可能性越大,对高维向量空间中规律的总结能力增强。这或许是为什么大语言模型扩张到一定程度的时候,出现了优异的性能,也就是所谓“涌现”。“涌现(Emergent Abilities)”[43]是指模型突破某个规模后性能显著提升、表现出小模型不具备的能力。尽管当前对于模型涌现能力的评价指标有技术争议[44],不过争议多存在于数学方法层面对涌现现象的度量,并没有否定模型会在规模增大时突然增加性能这一现象。总体来说,涌现现象可能是对高维度的规律空间刻画的结果。对于通用模型而言,如果呈现出规模定律,意味着继续扩展规模会带来模型效果的提升,对规律的刻画也能接近世界规律的“本来面貌”。

不过,作为经验定律,规模定律并非毫无争议,规模定律是否是提升性能“最好的答案”仍然有待探索。一方面,现在已经出现了潜在高质量数据的短缺问题,有估测认为全球高质量文本数据在2026年前可能出现供不应求[45],能否有支持规模持续扩展的数据量仍是未知数,不过合成数据、待收集的其他类型数据可能是一个解决思路;另一方面,规模定律下扩展规模对模型精度的线性提升是否存在边界,也是当今学术界和业界无法解答的问题。而且,沿着规模定律还存在边际收益递减的问题,当三要素的规模比较小时,扩展规模带来的收益明显,而当模型预测损失越来越小的时候,改进模型的效果可能不那么明显。更进一步的,有观点认为规模定律与人类大脑运用少量样本、快速发现规律的方式背道而驰[46],也有观点认为过度强调规模可能会忽视知识、推理本身的重要性[47]等。激烈的讨论可能代表着沿着规模定律提高AI性能的路径仍有改进空间,规模定律是推动AI提升性能的路径,但也可能存在其他路径。

规模定律是技术层面的讨论,但也隐含着经济层面的规模要求,大国享有规模优势。规模定律和涌现都指出了扩展规模带来模型性能提升,这意味着AI大模型的研发需要大量资源投入,大国可以发挥规模优势。算力驱动模型从大量高质量数据中进行规律总结,参数和数据的大幅增长,使本轮AI通用模型在训练阶段需要执行更大的矩阵运算,意味着更大的GPU投入,为了满足更新模型、更丰富功能带来的算力需求,AI发展持续转向性能更好、含有更多芯片的大型计算集群。此外,持续优化算法架构,研究合成数据,采集新类型的多模态数据,大模型训练的工程调优等都需要充足的人才投入。大国规模可以分摊模型训练这一高昂的固定成本,也拥有更多的人才储备,从而更快突破AI性能阈值,达到更好的效果。

总结来看,在当前通用模型突破和算力、数据的支撑下,AI对于真实世界规律的总结和归纳或将越来越到位,从虚拟走向真实世界,未来的AI也将为人类生产生活带来深刻影响。当前AI找到了展现出通用模型潜力的架构,以及规模定律所指出的提高模型表现的方式,随着收集、清洗得到越来越多高质量的多模态数据,用通用模型加以训练,可以深入挖掘到越来越多的真实世界规律,并在跨模态的数据中完成对真实世界各个维度的刻画,从而逼近真实世界的客观规律。如此发展之下,数字智能和具身智能系统结合,在越来越融入到人类社会的同时,影响人类的生活习惯、思维方式甚至认知,中金研究认为一场智能浪潮正在酝酿,AI也将更加深刻、更加显著地对人类社会产生变革性的影响。


二、“研发-应用”加速循环,智能融合浪潮已来


新一轮的AI发展已初步展露出通用目的技术应用普遍、催生创新、可改进的三大特征。从市场需求预期和企业盈利能力来看,当前AI技术发展或已跨过S型曲线的第一拐点,“研发-应用”的迭代循环正在形成,在规模定律和新摩尔定律的支撑、以及市场竞争和任务驱动的激励下,将迎来智能模拟快速进步和应用的时期。通用模型的突破和规模定律,正在推动智能水平提升、成本下降,这将在生产端推动人类与AI的再分工,进而促进生产效率提升和劳动力的部门间转移,并在消费端激发大量智能需求,智能融合浪潮正加速袭来。

(一)通用模型赋予AI更强融合潜力

进入通用模型时代,AI有逐步演化为一项通用目的技术的趋势,产业融合潜力得以挖掘。就像历史上的蒸汽、电力和IT技术,通用目的技术在广泛融合产业的过程中表现出三个特征[48]:一是应用具有普遍性,使用范围并非局限于单个产品或行业;二是催生次级创新,为各行业相对成熟的现有技术提供新的活力;三是技术上持续改进,随着成本下降或性能提升适用于越来越多的场景。从三个特征来看,通用模型时代的AI与产业融合的能力可能更强。

应用范围方面,智能模拟的通用性使本轮AI技术具有更高的产业兼容性,使融合更为普遍和均匀。本轮AI能够理解指令并自主学习,倾向于对人而非特定机器的替代。各行业几乎都有人的参与,需要完成的任务都与人的智能相关,这使本轮AI技术相较其他技术具有更高的兼容性。随着AI模拟智能场景的扩张,AI与人可以完成任务的重叠度增加,且逐步覆盖更高认知能力要求的复杂任务集[49]。生成式AI在各行业均出现了加速部署趋势[50];百度“文心一言”大语言模型由于具备信息处理和解决问题的通用智能,对外发布一周内就有互联网、传媒、金融、汽车、医疗、教育、房地产等多个领域的数百家企业宣布加入生态[51],体现出行业应用的普遍性。对比来看,电力和IT技术的采用是分部门次序进行的,率先采用电力的部门是此前严重依赖蒸汽动力的印刷业、电机和交通业,而木材、食品制造等部门的电气化进程则滞后了近20年才开始[52];而此次AI技术提供的通用智能在一开始就被众多行业积极采用,行业间开始采用的时间差距并没有那么大,因此整体上对经济社会的影响也可能更深远。

创新催生方面,本轮AI已促进各领域发生次级创新,尤其是在研发端开启了科学研究的新范式。就像蒸汽和电力等通用动力设备的嵌入推动了各类机械制造工艺的创新,AI技术也与各行业相对成熟的现有技术结合(图表1.8a),产生了自动驾驶汽车、医疗影像分析系统和个性化推荐商业软件等次级创新。不仅如此,与电力和IT技术促进创新时人类处于操控和主导地位不同,AI还可以直接参与到研发端的科学发现过程中,以相对更高的自主性和创造性与人类进行更深入的协作,通过改进搜寻和推理过程来赋能科学研究的各个阶段,从而完善了大尺度、高精度、高成本的研究范式[53],加速了各个领域的创新发现。澳大利亚学术机构CSIRO称,截至2023年,超过99%的研究领域曾发表过涉及AI的学术论文;《自然》杂志发现,各学科论文发表中与AI相关的比例加速提升,2023年在标题或摘要中提及AI或AI相关关键词的论文比例为8%,而十年前为2%[54]。各领域与AI结合的授权专利数量也从2015年前的年增量不足1万快速上升至超过3万[55]。

技术改进方面,本轮AI技术随着时间表现出持续的性能提升和模态拓展,推动可融合的应用场景快速增加。AI模型自身能够通过用户反馈等方式,在不断的推理中积累经验并自我迭代,以提高未来回答相似问题的准确性。同时,规模定律为本轮AI的智能提升提供了相对确定的基准线,模型正朝着增加算力、数据和参数量的方向快速演进,在语义分析、数理逻辑、编程等方面的测试得分逐步提升[56];通过允许更长的上下文窗口和集成外部搜索引擎等方式,AI打破了数据时间、容量和内容的限制,从而越来越精准地理解用户意图,进一步增强了通用智能水平。不仅如此,从GPT-4到GPT-4o,AI模型还通过将输入和输出的数据形式拓展至文本以外的图像、音频、视频等模态,贴近人类感知世界的方式,从更为丰富的角度交叉验证、全面理解高维现实世界,进一步显著提高了能力[57]。由此,新AI正在跨过越来越多应用场景的智能门槛,从最初的基础翻译和预设问答,到更复杂的程序编码、实验操作、金融分析,再到更开放的艺术设计、影视创作,产业适用性随着技术改进不断提升。

综合应用范围、创新催生和技术改进三方面,通用模型时代的AI有潜力成为一项具有更强产业融合潜力的通用目的技术。值得注意的是,通用目的技术是一个后验的概念,各行各业的采用、次级创新的催生、技术的迭代改进都需要时间的沉淀和检验。技术路径的不确定性、市场的理解和接受程度、配套的基础设施和知识库等都会影响一项技术能否扩散、需要花多长时间完成扩散。那么,本轮AI技术发展到了什么阶段,又将带来多大程度的社会经济影响呢?

(二)跨过S型曲线第一拐点,智能融合蓄势待发

技术发展通常要经历三个阶段,生命周期遵循“S型曲线”(图表1.7)。S型曲线刻画了技术的累计采用率——在初始阶段扩散较为缓慢,随后进入加速期,最终放缓并达到饱和。从经济学角度看,扩散速度的变化主要受到创新成本和收益的影响。在早期阶段,新技术本身由于尚不成熟面临着很多未知因素,需要投入大量的研发费用进行试错,并配套开发专门的材料、工艺和基础设施,创新成本非常高昂;而消费者可能尚不了解新技术的价值,或不愿为之支付高价,导致需求不确定性大、收益有限。此时,研发者处于入不敷出的“烧钱”状态,由于缺乏相对确定的盈利能力和应用前景,也难以吸引充足的资金、人才等外部资源投入,技术发展和市场扩散速度较慢。随着技术改进和市场磨合,实现同等性能的技术应用成本不断下降,同时市场需求逐步增长,研发者最终将越过创新的盈亏平衡点开始盈利。自此,盈利的再投资,叠加外部资源看到潜在机会后的进入,将加速技术改进和市场扩张的过程,这又将进一步增加盈利并吸引新进入者,从而实现“研发更先进的技术—获取市场利润—支撑进一步研发”正向循环下的持续迭代。最后,当大多数市场用户采用了该技术,且技术逐渐成熟时,盈利模式由抢占新市场转为存量竞争、盈利增速放缓,同时由于边际改进成本增加,技术进步的速度将开始减缓,导致技术扩散速度再次变慢。

图表1.7:到达S型曲线的第一拐点后,“研发-应用”正向循环下进入技术迭代和扩散的加速期

资料来源:中金研究院

基于上述分析,判断一项新技术行至S型曲线何处,主要在于其是否具有较为确定的市场需求(即盈利预期),或研发者是否已经开始盈利以及潜在进入者是否大量投入资源。由此,判断本轮AI技术发展可能已经跨过S型曲线的第一个拐点:

本轮AI浪潮展现出较为确定的市场需求。从功能性来看,AI模拟的通用智能在各行业都匹配上越来越多的落地场景(图表1.8a),如医疗保健业的疾病诊疗和新药开发、金融业的欺诈检测和辅助投资、制造业的人形机器协助搬运、零售业的个性化推荐和库存管理、交通运输业的自动驾驶等,因此潜在市场规模十分广阔。从经济性来看,AI技术的应用成本正在快速下降,产品定价(如大语言模型)一旦降至经济性区间,消费者接受程度高,普及速度非常快。以ChatGPT为例,其全球用户数在产品推出五天内破百万、不到三个月破亿[58]。对于尚未推出商业化产品或定价还相对较高的AI技术,市场需求的预期可能已经形成,如特斯拉CEO埃隆·马斯克认为人形机器人的市场需求将达到每年约10亿台[59],大量资源在技术尚未成熟和盈利时就进入,以等待产品孵化并抢占市场先机,这有助于加速技术的改进和拐点的到来。

AI相关企业的盈利能力显著提升,吸引潜在进入者入局加码。OpenAI营收高增,由2022年的2亿美元提升至2023年的20亿美元[60]。众多产品也在集成AI后开始商业创收,以AI PC为例,微软在2024年5月宣布将AI助手Copilot全面融入Windows系统,并与合作伙伴戴尔、惠普、联想和三星等推出一系列搭载高性能AI处理器的PC设备[61],这些产品已面向消费者发售,据IDC预计,全球AI PC出货量将从2024年的近5000万台增长至2027年的1.67亿台,届时可能占到所有PC出货量的近60%[62]。越来越多的投资者和企业看到AI技术的商用价值后进入该行业,AI领域自2021年起出现了私人投资额和新成立公司数的加速增长(图表1.8b),其中生成式AI领域2023年吸引了252亿美元的私人投资,接近2022年的9倍,占当年全部AI私人投资的四分之一以上[63]。这些AI企业的盈利和投资将用于进一步研发、建设数据中心或购买高性能算力资源、聘请顶尖科学家等,并使市场竞争更为激烈,进而推动企业进行“任务驱动(mission-driven)”的技术迭代,间隔较短时间就推出一个更新版本,形成更为陡峭增长的S型曲线。

图表1.8:本轮AI技术发展可能已经跨过S型曲线的第一个拐点

资料来源:a. Our World in Data,b. Stanford AI index(2024),中金研究院

跨过S型曲线的第一拐点预示着“研发-应用”正向循环的开启,智能融合蓄势待发。除了上述应用层面的市场需求和盈利能力,研发层面的规模定律和新摩尔定律也将支撑本轮AI技术经历一段快速进步和融合的时期。在新摩尔定律的支持下,可用的计算资源随时间递增,每隔数年(有学者测算为5-10年[64])将出现一个数量级的改进。随着算力的持续增长,人工智能的能力将遵循以规模定律为支撑的相对确定的基准线持续提升,这种情形下相当长一段时间内AI技术将会不断迭代向前。至于本轮AI技术何时迎来第二拐点,目前还较难判断,但可能尚有较长一段时间。从通用目的技术扩散的历史经验来看,若以“获取电力服务”和“拥有个人电脑”的累计家庭比例来衡量电力和IT技术的采用情况,则通用目的技术出现的第35年左右,需求端采用率达到约70%时,技术越过S型曲线第二拐点[65]。然而,如果遇到高质量数据短缺、能源等瓶颈,AI技术的发展速度或将受到拖累,甚至提前跨过第二个拐点,进入平缓期。

(三)智能成本下降是核心,经济与社会影响深远

AI新变革的核心是智能成本的快速下降。这不仅表现为人类智能由AI完成时成本大幅下降,AI本身模拟智能的成本也将持续下降。从完成不同智能任务对应的成本来看,AI目前在一些数理逻辑、自然辨识和语言智能任务中已达到人类平均表现且智能成本下降至低于人类劳动者(图表1.9)。如一名平面设计师创建一个动漫角色大约需要一小时,其时薪超过100美元,而人工智能完成相同的任务只需要0.01美分和1秒[66]。从部署AI以获得智能的成本拆分开来,性能要求决定的训练成本、任务量决定的执行成本、配置和维护的工程师成本三个部分都在随时间快速下降[67]。训练成本主要取决于算力成本和数据成本,在给定性能要求、即参数量和数据量确定的条件下,据中金公司研究部估测,硬件、软件、算法和计算架构的进步将共同导致单位计算成本持续下降超过100倍[68],收集或合成数据的成本在长期也将随着数据的开放与共享以及数字技术的进步而下降。以前沿的AI基础模型为例,GPT-3水平的生成式模型的训练成本从2020年的460万美元下降至2022年的45万美元,年降幅约为70%[69]。给定任务量的条件下,执行成本未来也将进一步随着算力成本不断下降,如OpenAI对GPT-3和GPT-4的API推理定价正在加速下降[70];又如人形机器人的成本也从2023年的每台5-25万美元(低端至最先进版本)下降近40%至2024年的3-15万美元[71],马斯克还表示特斯拉Optimus人形机器人的最终成本将降至约2-2.5万美元[72]。工程师成本是雇佣工程师以配置和维护AI产品所支付的工资,随着大模型厂商针对客户需求推出轻量级、低延迟的版本(如Gemini 1.5 Flash)并侧重改善不同任务或语言下的模型性能,基础模型的场景贴合度提升,垂类模型的接入和微调仅需要小型工程师团队,有助于降低工程师成本。相较人类接受教育和技能培训的学习训练过程,AI智能的迁移成本(即边际智能成本)非常低,在少量微调即可复用模型的相似场景间甚至趋近于0。

图表1.9:AI已在一些智能任务中达到人类平均表现且成本降至低于人类劳动者

资料来源: NTU(2024),Google(2023),Martin Casado(2024)[73],中金研究院

智能成本的快速下降可能带来社会、经济和文化的深远影响。通用目的技术的融合往往带来经济生产效率的提升、生产方式的颠覆和新兴产业的出现,以及社会结构的重塑和生活方式的演变。历史上,蒸汽和电力技术提供了稳定可靠的动力来源,通过机械化和电气化实现集中和规模化的工厂系统,从而大幅降低了生产和交运成本;IT革命创造了互联网、计算机等各类电子系统,通过数字化和自动化实现敏捷灵活的互联互通,从而大幅降低了信息传播和计算成本。在电力和IT技术越过S型曲线第一拐点后,均出现了生产率增长和劳动力市场结构性调整。如20世纪初美国电气化加速期间,出现了全要素生产率和劳动生产率的加速增长[74],同时农业从业人员占比下降15.4%、制造业和商贸业从业人员占比提升7.1%和5.5%[75];类似的,20世纪末美国IT技术的加速普及,推动劳动生产率增速由1974-1995年的年均1.4%提升至1995-2006年的年均2.9%[76],同时在一定程度上对常规性工作形成取代并加剧了技能极化趋势[77]。那么,本轮AI变革又将带来何种根本性变化?

生产端看,智能成本的下降将人类从常规智能任务中部分解放出来,人类与AI的再分工有助于缓解劳动力相对不足或增速放缓的限制。正如此前自动化机器人对常规体力劳动的取代,中金研究认为本轮模拟通用智能的AI理论上或在成本降至人类劳动者以下后发生类似的取代。目前AI智能尚未全面达到人类水平,这种取代可能不是完全的,主要限于部分重复性和规则化的智能任务。同时,AI还将创造大量新的就业岗位,并辅助人类进行复杂问题的决策,提高人类的学习效率和认知效率。以斯坦福大学教授李飞飞为代表的一派观点认为[78],人类将随着AI智能的演进动态更新和精进能力,并借助AI跃迁到更高的智能水平,期间可能由于AI发展速度快于人类技能调整速度而出现结构性失业,但最终将适应AI技术并用其赋能持续提高劳动生产率,在生产分工中朝着高智能要求、高附加值的职能聚集,更多地发挥创造力、批判性思维、情感沟通和团队合作等能力。长期来看,人类和AI的再分工在一定程度上缓解了劳动者相对不足或增速放缓的问题,符合劳动者随着平均收入和受教育水平的提高向更高生产率岗位转移的社会发展趋势。关于再分工的最终界限,目前尚有较大争议,也有以OpenAI联合创始人Sam Altman为代表的一派观点认为[79],AI模拟的通用智能将在一些部门超过并几乎完全取代人类劳动者,进而导致经济表现出“鲍莫尔病”,即人类越来越多地集中于AI相对不擅长且效率相对较低的部门,最终AI全面达到人类智能水平时,人类或将不再需要工作。无论是何种结局,AI作为一项通用目的技术具有推动经济增长和调整就业结构的巨大潜力。

消费端看,智能成本的下降将激发大量智能需求,进而造成深远的社会经济影响。IT革命时期信息传播成本和计算成本快速降低,涌现出电子商务、社交媒体、流媒体服务等大量数字内容分发和计算需求。类似的,在AI智能的进步和演化过程中,已有的智能需求将随之调整和扩张,如精准推荐和定制的个性化需求相对标准化需求可能提升,同时出现各类意想不到的新智能需求,如虚拟数字人的情感互动等。除了经济角度的需求扩张和结构调整,这还将产生复杂的社会影响,比如个性化的推荐内容有助于提高客户满意度,但也可能加剧“信息茧房”和社会矛盾[80],虚拟数字人可能缓解孤独、抑郁等心理问题并满足日益增长的情感需求,但也可能被用于诈骗等非法活动,或导致人机伦理问题[81]。这些新的智能需求需要相应的法律法规和伦理规范来加以约束和引导,帮助人们正确认识和使用AI。

此外,智能变革将伴随着国家竞争。电力革命之前,英国作为“日不落帝国”曾享受国际领导者带来的政治经济溢价,但随着电力革命在美国的扩散,英国被美国赶超,这些溢价也随之消失。技术变革为各国打开新的竞争窗口——领先者希望在技术变革中维持领先地位,后发者希望通过技术变革得以追赶,技术变革是各国竞争的重要阵地。本轮AI变革也是如此。那么,各国AI发展水平如何,谁会引领这场智能浪潮?


三、谁将引领这场浪潮?


(一)“研发-应用”迭代是基础

历次通用目的技术变革的证据表明,许多国家往往在技术越过第一拐点后,通过在初级创新与次级创新两个层面发力,实现经济的快速增长,新一轮的AI也将引发一场智能变革,两类创新同样得以凭借不同渠道对实体经济产生影响。初级创新是指全新技术或产品的研发,其具有突破性和颠覆性,能引领技术前沿并显著改变经济增长的轨迹,同时,其也具有高度的不确定性和丰厚的潜在回报,大量的研发投入和长期的开发可能带来产品、服务和生产流程的全面革新。次级创新则是基于初级创新之上的应用和改进,指对现有技术或产品实现优化,以提高性能、提升市场适用性为目的的创新,其风险相对较低,能够促进技术的快速溢出和普及,提高生产效率,由于次级创新不断扩展通用目的技术的应用领域和经济影响力,同样在推动整体经济增长方面发挥重要作用[82]。

技术浪潮的引领者,通常是能够通过协调基础科研、技术转化、产业应用等方面的综合能力,借助通用目的技术完成重大科技突破并成功将其应用于广泛的经济活动中,带来本国经济的显著快速增长,继而影响国际技术标准制定,主导全球市场的国家。中金研究认为,谁能最大程度地促进AI在跨过第一拐点后的全面进步,谁就有望引领这一场技术浪潮,而这主要取决于谁会在“研发-应用”的相互迭代中胜出。

18世纪,英国依托蒸汽机的发明和改良,大力推动这一通用目的技术在纺织、运输、制造业等领域的广泛应用,各行业生产力的快速提升使英国以“世界工厂”的身份引领了第一次工业革命。这项基础性、颠覆性的创新发生在英国,与其作为当时的世界大国本身所积淀的一系列优势密不可分。首先,英国有17世纪欧洲科学革命带来的理论基础,如牛顿等人的力学理论成为后来工程技术发展的基石。其次,英国本土早期的技术积累也相当丰厚,在第一次工业革命前夕,英国在采矿、冶金、机械制造等领域也已积累了丰富的技术和工艺,如,亨利·科特发明的“搅拌”和“碾压”法,使煅铁功效提高数十倍,为蒸汽机的大规模生产提供了材料基础,此外,18世纪英国机床的发明也使得复杂机械设备的制造成为可能。其三,英国的人才积累也不容小觑,当时的英国有大量像詹姆斯·瓦特这样具备实践经验和创新精神的工匠和工程师,瓦特正是在纽科门的基础上改进了蒸汽机,通过增加冷凝器和改进气缸,显著提高了蒸汽机的效率。而英国真正引领第一次工业革命,正是在技术越过第一拐点后,不断激发应用潜力的结果。乔治·斯蒂芬森在蒸汽机技术的基础上发明了蒸汽机车,大大提高了陆路运输效率,而铁路的建设和普及,再叠加蒸汽机在多个产业中带来的革命性变化,进一步推动了工业化和城市化的进程,由此巩固了英国在第一次工业革命中的引领者地位。

英国由于占据了研发与应用的先机而成为工业时代最初的引领者,第二次工业革命中,美国则通过研发追赶和应用反哺实现了超越。电力的初级创新最早集中发生在19世纪的欧洲,尤其是德国和英国。赫胥黎在1809年发明了最早的电光源之一的电弧灯;法拉第在1831年发明的电磁感应装置,是现代发电机的前身。然而,产生大规模影响的次级创新却发生在美国,托马斯·爱迪生和尼古拉·特斯拉在电灯、电力传输和电动机等方面的发明奠定了现代电力系统的基础,进一步推动电力技术跨过第一拐点。欧洲的电力技术通过人才交流、技术转移和跨国公司的全球布局,迅速传入美国。由于美国拥有广阔的疆域和大量的人口,这为电力技术的应用和扩展提供了广阔的市场,加上美国当时的经济快速增长,资本迅速积累,大量资金得以投入到电力基础设施的建设中,这些基础设施的完善反过来又促进了电力技术的进一步发展和应用。美国在原有技术的基础上,加速进行大规模的工业应用和改进,如,特斯拉和爱迪生发明的电力设备与系统被广泛应用于城市电网建设、家庭电器等多个领域,显著提升了技术的实际应用价值,推动了电气化进程,使得美国制造业和服务业的效率显著提升,工业产值在20世纪初迅速超越欧洲,成为全球最大的工业国家。

半导体则是另一例“研发-应用”迭代互促引发技术革命引领者变位的生动案例。始于上世纪50年代的半导体产业发展至今,研发制造领域的引领者几乎群集于美国,由此支撑的各项应用创新,如智能手机、电子商务、移动支付也大都肇始于欧美。然而,中国基于次前沿和成熟技术,在应用层后来居上,孕育了抖音、微信、拼多多等囊括社交网络、生活服务、电子商务、共享业务等在内的许多具有全球影响力的互联网巨头。自2008年以来,中国电子商务持续快速增长,交易额占全球的比例从不到1%发展到十年后的40%以上,超过法国、德国、日本、英国和美国的总和[83]。中国的移动支付在采用率和交易额方面也由于支付宝等的广泛使用完成赶超,居于世界领先。大市场还带来多梯度、多层次结构的消费群体和消费场景,又反哺新一轮的初级创新,从而强化了“研发-应用”推动的技术创新循环。

蓬勃的初级创新与次级创新将成为AI进步的加速器,同样会对全球经济社会发展带来变革。一方面,伴随其研发(如,算法开发、模型搭建和技术平台建设)过程,具有突破性的新知识和新技术被创造出来,通过对一部分涉及认知的任务和非重复性的体力任务进行自动化,进一步成为新技术的催化剂,推动更大范围初级创新的同时,大幅提升各行业生产效率;另一方面,AI通过与人形机器人等结合的方式,将研发的成果转化为实际的产品和服务,可以进入制造业、服务业等部门,改善现有生产流程和服务,从而产生次级创新,在应用端实现经济增长。AI研发与应用优势地位的取得依然遵循通用目的技术的一般规律。当AI技术发展越过第一拐点后,就研发而言,由于相关知识具有更高的技术依赖性和复杂性,更短的技术迭代和创新周期,以及更紧密的生态系统和协同环境,算力、数据和算法是当前AI研发端的三个重要要素,三要素相互联系、相互影响,共同决定了AI技术进步的水平,而金融支持对撬动市场力量支持技术跃迁也同样关键。就应用而言,作为一项有潜力催生外部创新的通用目的技术,AI有助于促进更加成熟的技术应用实现跨部门融合,降低创新门槛[84],大规模的市场和健康的政策环境两大要素将对AI次级创新带来影响。基于此,从初级创新与次级创新,即研发和应用,两个维度展开分析,能较为全面合理地勾勒各国在技术第一拐点后的竞合现状,尤其在该技术是否能显著提升本国经济增长率、对全球经济增长作出贡献等方面识别出新一轮技术浪潮中的引领者。

(二)算力、数据、人才、金融推动研发端创新

算力、数据和算法是当前AI研发端的三个重要要素,三要素相互联系、相互影响,共同决定了AI技术进步的水平,而金融支持对撬动市场力量支持技术跃迁也同样关键。与其他技术有所不同,AI领域的知识具有更广的多样性和更高的复杂性,且其知识库正处在一个持续快速扩张的状态中,既包括“科学创新”相关的理论知识,如数据科学、算法理论、统计学等专业基础,又包括“经验创新”相关的实践知识,这在调整参数、模型训练过程中十分重要[85]。与便于传播的理论知识相比,偏重“工匠”经验的实践类“知识库”较难获取、分解和转移,后来者想要完全依靠自身研发对这些知识进行吸收存在较大困难。此外,由于知识本身还具有规模报酬递增特征,即随着知识积累的增加,知识的生产效率和随之带来的经济效益会不断增加[86],在硬件基础、数据、人才和金融支持等方面有长期积累的先发者因此筑起较高的优势壁垒[87]。

算力在AI时代承担着重要角色,但其提升依赖高性能芯片的发展,核心技术壁垒较高。进入深度学习时代后,AI算力提升的曲线相较以前更加陡峭。2010年前,训练AI的计算量每21.6个月翻一番,2010年以来,在最大的AI训练运行中所使用的计算量大约在6个月内翻倍,过去13年已增长了3.5亿倍(图表1.10a)。为了获得AI性能的整体提升,需要持续投入大量的硬件GPU。而在芯片领域,首先,芯片制造是复杂的系统工程,在设计、制造、封装测试等环节中,该领域的传统领先者积累了大量知识,形成技术壁垒;其次,美国GPU领先全球,后发国家受到一定程度的制约,追赶存在一定难度。根据IDC测算,2023年中国智能算力规模达到414.1EFLOPS,同比增长59.3%。但国际比较来看,2024年中国全国智能算力规模或低于Meta公司所拥有的H100算力(图表1.10b)。

数据是AI研发层的“养料”和“教材”,同时数据也是AI性能和表现的“检验器”,AI的研发竞争,除了关注数据规模外,数据质量的重要性也日益凸显。高质量数据集对于提高AI模型表现十分重要,不过,数据质量的高低定义是动态的,随着AI发展,其能力不断增强,决定了其对所需数据“养料”的要求也在不断变化。在大语言模型时代,AI已经呈现出初步的文本理解潜力,Sora的突破不仅呈现出AI多模态交互的能力,也展现出其能对世界产生理解的迹象,这意味着当前AI的发展目标已不仅仅是对人类“思维”的模拟,而是全面地实现人类与现实世界的交互。Gunasekar等人提出,在大语言模型中,高质量的预训练数据应当类似人类的“教科书”,这要求数据库具备规模充足、多样性高、精准度高、清晰明了等特征[88]。随着AI训练数据上升到图像和视频维度,高质量数据或更偏重由机器直接捕获的、未经人类创作的图像视频等形式,数据的维度也愈发多元,触觉、味觉、嗅觉等数据将进入AI训练数据集,人类或将更少参与数据的获取过程或记录和传输的中介过程。在研发端对更高质量、更多维度、更大体量数据的需求激增的情形下,大国规模将较为自然地形成先发优势,为未来AI发展所必需的数据挖掘提供更坚实的基础。但大体量数据只是产生高质量数据的一个方面,数据的收集、清洗、标注、验证和合成等步骤对优质数据的形成也十分关键,而这些技术过程所积累的知识往往不易传播,最易在掌握前沿技术的大国形成聚集,从而强化AI研发层面的优势[89]。

图表1.10:AI所需算力高速增长,但中国智能算力规模与国际相比较低

注:a.其他领域包括推荐类、多模态类、发布时已知的其他类型和发布时未表明类型的AI。b. 据估计,英伟达于2023年生产550,000张H100显卡,Meta公司宣布将于2024年末拥有约350,000张显卡。H100算力规模计算 = 单卡算力(1979TFLOPS)* 显卡数量 * 显卡利用率(85%)。图左半部分红色柱形图表示中国智能算力规模,右半部分蓝色柱子分别为英伟达和Meta公司H100算力规模。

资料来源:Our World in Data,IDC,Financial Times,Nvidia,Meta,中金研究院

算法是AI研发的核心,高技术人才是保障算法突破的关键,而人才聚集效应巩固了先发国家的优势,加大了追赶难度。随着技术的发展,AI需要解决的任务变得更加复杂,传统算法难以满足医疗、金融、交通等广泛场景的不同需求,数据量的大幅增长也对算法提高信息处理的准确性和效率、减少计算资源浪费提出了更高的要求,这亟需算法方面的突破性创新。算法发展需要具备专业知识和创新能力的高技术人才,他们的研究可以为算法的发展提供新思路、新方法,是推动算法突破的主体力量。然而人才数量的禀赋未必能充分转化为突破性创新产出,人才质量尤为重要。2010-2020年中国发表AI领域论文的科研人员数量领先,超出美国近20万人[90],但在本轮AI发展较为关键的研究领域却落于美国之后。由于知识库的复杂性和人才培养的长期性,传统技术大国往往具备累积优势。一项新的算法提出后,相关理论知识易于传播,可以在全球范围内自由流动,但前沿算法人才网络会产生显著的集聚效应。人才聚集可以更容易地分享实践知识、技能和研究成果,促进知识溢出和跨领域整合,加速算法的发展和优化,提高研发效率,这进一步巩固了技术引领地的人才优势,同时激励其继续培养和吸引创新人才,为算法突破提供持续动力。据2023年数据统计,世界顶尖AI人才聚集的科研中心多数分布在美国,在排名前25的研究机构中,美国占据15个,中国占据6个[91]。此外,分析当前全球最具影响力的基础模型(如OpenAI的GPT-4o,谷歌的Gemini 1.5 Pro,Meta的Llama 3,Anthropic的Claude 3等)所属组织的核心技术人才网络,可以看到当前AI研发的顶尖人才仍主要聚集于北美,中、英、欧等地的算法创新人才在不同程度上属于北美人才集群的延伸(图表1.11)。如果AI技术将长期保持较短的技术周期,维持快速迭代,未来AI前沿研发的全球布局或将仍然主要分布在少数技术规模大国的创新集群中,研发层面的优势将主要被其掌握。

图表1.11:最具影响的基础模型研发人才主要在北美

注:网络中的节点表示当前全球知名大模型所属公司或组织的首席科学家等核心技术负责人,连线表示两个节点间存在师生同事、亲缘等一种或多种关系,统计截至时间为2024年5月14日。

资料来源:Stanford HAI,Artificial   Intelligence Index Report 2024;中金研究院

图表1.12:金融支持下的AI初创企业活跃度

资料来源:Stanford HAI,Artificial   Intelligence Index Report 2024;中金研究院

市场激励下的金融支持模式,对于AI研发并成功转化为现实生产力而言同样不可或缺。首先,规模定律意味着,在当前大模型快速发展阶段,硬件采购、软件开发、数据收集存储等都需要大量资金支持,金融资本能为AI研发的基础设施建设和维护提供保障。其次,以风险投资为代表的金融力量在支持AI初创和成熟企业的技术突破方面起到直接而关键的作用。许多AI领域的创新都由初创公司推动,而这些公司通常需要外部资本来启动和扩展业务,如DeepMind被谷歌收购前主要依靠多轮风投得以专注于其突破性深度学习的研究,OpenAI在2019年改制后也是基于微软和其他风投的资金支持开发出GPT-3等模型。此外,风投等金融力量在AI芯片领域的投入也十分显著,英伟达持续研发高性能GPU得益于资本市场的支撑。其三,充足的资金支持还能让企业和研究机构为研发团队提供有竞争力的薪酬和福利,以留存顶尖AI人才。从整体上,金融支持还能助力研发进程加速,缩短产品和技术的开发周期。截至2023年,美、中、英在AI领域的私人投资位居全球前三[92],由于各经济体金融支持程度不同,其AI初创企业的创新活力也有所差异(图表1.12)。

就当前AI技术的发展路径而言,知识报酬递增效应再叠加规模经济优势,或加剧前沿知识集聚,具有技术规模优势的大国,往往因为在硬件设施、数据体量、人才储备和金融规模等方面的积累而在研发端获得先发优势。大国大企本身的经济和技术实力更强,一方面产能大,另一方面有足够的资金和资源进行算力等投入,更大的云服务范围保障大国可以在更广范围内共享算力,取得规模优势;大国大企还具备更强的科研和人才实力,更容易形成AI人才中心,在算法等领域取得更大突破;规模大还意味着更广的经济社会互动,从而提供丰富来源和大体量的数据资源和资本支撑。对于在研发层面占据优势的技术规模大国,其可能会采取一系列措施来限制知识的流动和扩散,强化技术壁垒,如进一步制造核心技术人才的流动壁垒,对“开源”进行一定的限制,以保证其积累的知识不会被转移,从而筑牢引领优势。

(三)市场规模、政策环境支撑应用端融合

AI应用的发展并不必需最前沿的技术,较为成熟的技术不确定性较低,技术轨迹也更容易预测,即使是后发者也可以较为容易地抓住“机会之窗”,通过技术转移、自研等方式获取相关技术知识。同时,由于非前沿技术的落地应用难度低,只要能够适应和抓住外部市场需求和制度政策变化给予的机会,减少试错成本,就能在应用端取得优势[93]。因此,大规模市场与健康的政策环境将是AI技术越过第一拐点后,在应用端获得进展的两大重要推力。

多元细分的大市场是引领AI次级创新发力的基础保障。从技术层面看,AI的通用性意味着其在与各行业融合落地应用时门槛较低,且大国往往在人才、数据、基础设施和产业链成熟度等方面有较强积累。从市场层面看,商业市场潜力大的行业更能够发挥国内的市场规模优势,加速AI的应用。在需求端,大国的市场需求多样性较强,创新场景丰富,更易匹配成熟技术的各种应用场景,这为AI技术应用带来更大的扩散空间,能更广泛地刺激AI次级创新的产生;且大国的总体市场和细分市场规模均足够大,进一步摊薄次级创新的成本,支撑AI应用的商业利润,反哺应用技术的进一步创新,形成正向循环,有望快速缩小与领先国家的差距。在供给端,市场规模较大的国家,经济复杂性指数也较高,即产品多元化程度更高,应用场景更多,这提供了更多与AI融合的机会[94]。

支持性的政策环境则为AI次级创新的持续发展提供动力。在AI应用发展过程中,政策环境涵盖了有政府引导和参与的治理监管整体方向、技术及伦理标准制定、人才培养体系、知识产权及隐私保护措施和国际合作政策等诸多方面,稳健、灵活、包容的政策措施能大规模激发应用创新活力,为企业和研究机构创造有预期的市场环境。良好的法律和政策框架可以帮助企业在开发和应用AI技术时遵守法规,避免法律纠纷和用户信任问题,从而较为顺畅地实现广泛商业化,如欧盟2024年通过《人工智能法案》[95],为规范AI技术的使用、确保技术发展与道德规范相符提供了较为明确的依凭,其基于风险程度对AI进行分类,要求高风险AI系统的开发者提供详细的技术文件和合规评估,以确保系统的透明性和问责性。但鉴于该法案对高风险AI及数据使用、隐私保护提出严格要求,也一定程度带来增加技术开发应用的成本和时间、影响AI创新速度和市场竞争力的风险。高质量的教育和人才培养机制则有助于建立强大的AI人才库,支撑AI技术的持续应用和创新,如中国基于“新一代人工智能发展规划”鼓励高校设立超过2000个AI相关的项目与课程,通过人才培养提升技术创新能力[96]。

综上,本轮智能浪潮的竞争格局尚在形成过程中,谁将占据引领者地位还需要综合考量各国在研发端和应用端的发展势头,前者主要依赖算力、数据、人才和金融支持的整体水平,后者则倚重市场规模和政策环境的支持效果,二者需要相互促进,才能持续推动AI创新循环,从而提升整体经济动能。为此,中金研究专门构建了AI发展指数以评估各国在本轮技术浪潮中的智能融合潜力和相对地位。


四、度量智能融合迭代强弱——AI发展指数


如第二节所述,达到S型曲线的第一拐点后,研发端的技术改进和应用端的市场扩散将相互促进,加速创新发展。为了刻画本轮AI浪潮中各国的发展潜力,中金研究从研发和应用两个层面来衡量一个国家越过S型曲线第一拐点后AI在经济中引领智能融合迭代浪潮的能力,并将其命名为“AI发展指数”。该指数旨在刻画通过“研发-应用”正向循环的发展速度:研发层面的“技术活跃度”越高,AI可实现的功能和结合的应用场景就越多,从而在市场竞争中快速地吸引和积累更为庞大的用户群体,增加潜在的应用市场规模;应用层面的“市场友好度”越高,对AI的需求就越大,进而通过体验反馈和盈利反哺加快技术进步和扩散。AI发展指数为理解未来AI发展的影响因素,以及我国在国际竞争中的地位和优劣势提供了见解。

(一)研发应用并重,构建AI发展指数

AI发展指数从研发和应用两个层面出发(图表1.13a)。基于第三节的分析,中金研究构建了研发层面的“技术活跃度”指标,从算力、算法、数据和金融四个方面衡量一国AI技术相对于国际前沿的水平,以及应用层面的“市场友好度”指标,从暴露规模、扩散程度和政策环境三个方面衡量一国应用AI技术的潜力和成本。研发和应用相互促进,因而将二者标准化后取几何平均,得到“AI发展指数”,以体现AI在第一拐点后通过“研发-应用”正向循环的发展速度。

“技术活跃度”明确了本轮AI技术的前沿发展究竟需要怎样的算力、算法、数据和金融禀赋(图表1.13b)。算力方面,新一代AI系统越来越依赖以FLOPS衡量的高性能计算[97],同时规模定律下AI训练过程对算力的需求快速提升,主要依赖数据中心和云端网络集中部署大规模算力,以获得稳定性和可扩展的灵活性[98]。算法方面,顶尖AI人才是前沿AI算法的根本来源,将这些无形的AI算法知识转化为落地产品的能力也至关重要。数据方面,已有的和待收集的多模态、高质量数据集共同构成了训练AI的数据禀赋,同时获取、使用和流通这些数据的制度环境也是重要的影响因素。金融方面,算力、人才和数据都需要大量资金,高不确定性和高投资门槛下,前沿AI的研发和落地尤其离不开商业性风投的支持,为AI技术的持续突破提供动力[99]。特别的,算法和数据维度区分考虑了两类AI模拟的人类智能:一类是不借助物理实体即可完成的智能,如处理信息、规划推理等,训练这类智能所用的数据基本都已存在,如文本、图像、音视频等;另一类是需要借助物理实体来完成的,涉及真实物理空间中的位置移动、力量操作和灵活操作等,所需的数据主要包括与环境互动的动作行为数据等,大多数处于起步阶段,需要有意去合成、生成和收集。

图表1.13:AI发展指数

资料来源:中金研究院

AI在应用端的发展主要取决于市场友好度,由暴露规模、扩散程度和政策环境三个方面组成。首先,一国理论上暴露于AI技术的经济规模直观展现了其对于AI的需求,“暴露规模”由不同行业中可以使用AI进行替代或赋能的场景比例和国家产值的行业结构,计算一国理论上暴露于AI技术的GDP比例,再乘以该国购买力平价的GDP体量得到。其次,技术应用场景越多越分散,带来的外部规模效应越大,“扩散程度”通过度量各国AI暴露产值的行业份额方差,衡量了AI应用的外部规模效应。另外,“政策环境”包括一国的AI战略、监管质量、网络安全、伦理准则等,都有可能影响AI技术的应用成本,在此也纳入市场友好度的考虑[100]。

(二)AI发展指数一览

对20个经济体量靠前的国家计算“AI发展指数”,中金研究发现,当前以美国、中国为第一梯队,各自占据研发、应用相对领先优势的全球AI竞争格局初露端倪。将美国标准化为1,中国的AI发展指数为0.76,居全球第二,高于第二梯队的德国(0.32)、日本(0.31)和英国(0.31)。研发层面,中国的技术活跃度(0.50)相较前沿的美国仍有差距,但与第二梯队的英国(0.16)、德国(0.15)和日本(0.14)相比展现出明显的优势;应用层面,中国的市场友好度(1.16)处于领先,主要受益于庞大的市场规模和均衡的产业分布。决定AI研发和应用的禀赋不同,不同国家有相对擅长的方向。与中国类似在应用层面具有比较优势的国家还包括印度、俄罗斯、巴西等,与美国类似在研发层面具有比较优势的国家包括英国、韩国、瑞士等。

图表1.14:AI发展指数测算结果

资料来源:IMF,WB,中金研究院

(三)各国的优势与挑战

在此次智能浪潮引发的国际竞争中,中国整体上具有一定的技术优势和发挥规模效应的空间,有助于在达到S型曲线第一拐点后通过更强的“研发-应用”正向循环推进AI发展。那么,拆分细项来看,我国在哪些影响AI发展的禀赋方面面临限制,哪些方面又是值得进一步发扬的优势呢?

研发端来看,高性能算力和数据可得性成为中国AI技术赶超的主要挑战(图表1.15a)。算力维度,中国的高性能算力遭到美国出口限制,目前自研芯片提供的算力性能高于美国设置的限制标准,但在国际上处于相对落后的状态[101];美国智能芯片迭代速度快,采取优先将最高算力性能的GB200芯片填补国内需求、延迟面向全球的供应,向他国供给次优算力性能的H100、A100芯片,从而有效拉开了和其他国家的算力性能差距。但中国的规模算力部署,包括云计算和数据中心服务器等软硬件的市场规模,位于全球第二,虽然距离美国还有差距,但相较其他国家表现出明显的规模优势,能够支撑部分AI训练和推理所需的大规模算力。算法维度,中国整体表现显著优于除美国以外第二梯队的德、英、法国,尤其是AI算法的前沿知识创新能力与美国相差不大,但算法集成与开发落地产品的能力或相对欠缺,截至2023年,中国的AI创业公司数量不到美国的三分之一[102]。数据维度,规模上看中国具有庞大的数据生产者,历史上已经积累了相对丰富的数据量,对于自动驾驶、人形机器人等AI所需的待收集数据,也具备一定的挖掘或合成能力。但中国在数据可得性方面仍有改善空间,数据的开放程度、治理框架和基建网络等在一定程度上可能落后于欧美发达国家。另外,金融支持AI研发落地的力度有待提高,未来可能更依赖国内金融市场。据OECD统计,2022-2023年美、中AI风投数量的全球份额分别保持在30%和20%,金额则保持在50%和20%左右,这与两国相对的经济体量有较大差距。考虑到逆全球化趋势加剧,美国限制本土私募基金和风险资金对关键领域的海外科技公司进行投资,可能进一步拉开各国AI研发获得金融支持的差距。中金研究认为,未来中国金融支持科技的主要发力者可能转向国内金融机构和投资者,直接融资体系亟待完善。

应用端来看,中国的产值结构相对于美国更为偏向低AI暴露的行业(图表1.15b),但行业间的扩散程度更为均匀,可能带来更显著的外部规模效应。研究表明[103],金融保险、科学研究、教育服务、信息通信等知识和技术密集型行业的AI暴露度相对更高,农林牧渔、建筑业等行业则相对更低;欧美等发达国家的行业结构偏向前者,而中国等发展中国家则偏向后者。中国基于行业结构的AI暴露比例大约为整个经济规模的50%,低于20个国家的均值(55%)。具体来看,中国在相对低AI暴露程度的农林牧渔和制造业产值占比明显高于其他国家,为7%和27%。但另一方面,相较美国和韩国等AI暴露比例更高的发达国家,中国各行业的AI扩散相对更为均匀,有助于放大外部规模效应,促进协同转型和基础设施共享。政策环境与AI应用的关系较为复杂,出于隐私和人权等考虑对AI进行严格监管有助于防范潜在风险,也可能限制应用落地。中、美、欧、日等国目前都充分重视且提出了人工智能发展战略,并积极关注数据保护。同时,不同国家因为文化价值观和社会经济需求的差异,对AI的监管程度也有出入。如欧盟于2024年率先正式通过《人工智能法案》[104],在监管质量和可靠性方面获得进展,但对AI训练数据的透明度等要求也引发了企业因泄露商业机密而影响市场竞争的担忧[105],美国相对注重国家安全和伦理问题,而中国对AI技术持有相对开放的态度,或有助于推动应用快速落地。

图表1.15:中国在研发端的高性能算力和数据可得性面临限制,在应用端的产值结构偏向于低AI暴露的行业

注:a. 各分项为相对于美国的水平(美国=1),b. 假设行业AI暴露程度在各国相同,行业结构根据数据可得性参考2021-2023年水平。

资料来源:iFinD,OECD;BIS,The impact of artificial intelligence on output and inflation,2024;Felten et al.,Occupational, Industry, and Geographic Exposure to Artificial   Intelligence: A Novel Dataset and Its Potential Use,2021;中金研究院

割裂的全球市场可能会阻碍AI的价值实现并抑制创新,这或许会促使部分国家在未来的智能融合浪潮中深化合作。基于现实开放的经济视角,当前美国正在积极与欧洲和日本等国家开展人工智能的广泛合作,包括晶圆厂和数据中心的跨国布局、AI学术研究的合作交流、AI初创企业的跨国投资等。这些举措可能加速第二梯队的国家对中国的技术追赶,从AI发展指数上看,表现为美国的合作国在研发端快速逼近最前沿水平。以日本为例,如果美国在未来将新研制的高性能和先进超算供给日本使用,派遣顶尖人才指导传授日本AI技术,并共享已有的高质量和多模态数据、数据收集和合成的方法等,那么日本的AI发展指数或将快速缩小与中国的差距。此时,中国经济的规模优势变得至关重要,能够帮助我国在AI研发相对落后的情况下,依靠应用端的市场扩散维持一定的竞争力。


五、思考与启示


(一)通用模型或将带来AI认知真实世界规律的突破

本轮AI发展最重要的意义在于,以Transformer架构为代表的深度学习算法的成功,标志着AI在通用模型层面取得了重要进展,这让AI理解真实世界规律的能力获得了里程碑式的突破。人工智能是模拟智能的系统,而智能是对世界规律的总结和认知能力,人类智能通过处理世界上不同维度的、各种类型的信息去反推规律。此前AI无法对各种类型的信息进行通用处理,总结规律的视角不全面,从而无法深入认识世界,影响AI性能提高,因此模拟更高水平的智能需要通用模型。Transformer架构出现之初并非所谓的通用模型,因为各种类型的数据都可以看作序列用Transformer处理,使其可以在不同模态的数据信息中总结规律,从而将各种类型的智能模拟统一在一个架构中,打通了总结世界规律的空间,“意外”地被发现了通用性潜力。从这一角度出发,通用模型对AI发展具有重要意义。Transformer架构打开了通往通用模型时代的大门,但最终的答案也未必一定是Transformer架构,更优秀的通用算法架构将为AI发展带来助力。在通用模型中,AI对各模态数据信息统一处理,对各领域总结到的规律进行迁移、交叉运用,更全面地刻画现实世界中的规律,对世界的认识或将逐渐逼近真实情况。同时,对真实世界的理解离不开真实世界信息的输入,这也为未来AI的数据和算力建设指明了方向,直接采集于真实世界的多模态数据建设方兴未艾,与人形机器人、高精度传感器等的结合也将成为重点攻关方向,数据的丰富以及规模定律也都意味着更大、性能更高的算力资源需求。

(二)智能成本下降将结构性冲击劳动力市场,教育培训和灵活保障是关键

AI引发劳动力市场对人类技能要求的转变,技能转型慢或将拖累人工智能的扩散,同时造成长时间的结构性失业,因而亟需辅以教育培训和劳动保障政策。一方面,对于AI应用成本高于人类或表现不及人类的智能任务,其对应的技能需求或相对提升。如近年高AI暴露的岗位对具有社交(沟通、团队合作、谈判、演讲)和管理(员工监督、指导、领导)等AI互补型技能的人才需求逐步提高,而对基础电脑(包括编程)和行政文书等技能的人才需求有所下降[106]。另一方面,开发和维护AI系统,以及使用AI应用程序相关的技能需求也将在AI越过拐点加速扩散的过程中进一步提高。根据《2023年人工智能人才洞察》,中国AI相关岗位的供需比已从2022年的0.63下降至2023年1-8月的0.38[107],缺乏技能成为采用AI的主要障碍。对此,公共政策可以在培训教育和劳动保障方面发挥重要作用。首先,容易被AI取代的劳动力是提供教育培训的重点对象,可以参考美欧通过牵头企业、社区与教育机构共同开发符合岗位需求的AI及其互补技能培训并建立认证计划,来加速技能转型;对于AI开发和采用等较难通过雇主培训获得的技能,可考虑向职业学校等专业机构拨款,以设置AI课程、雇佣教师并为接受AI教育的学生提供补贴等。其次,AI发展速度可能快于人类技能调整速度从而出现结构性失业,对此劳动力保障政策应朝着鼓励流动性和灵活性的方向调整,如延长失业救济金的期间以适应AI及相关技能的学习,为因AI失业的劳动者提供经济和求职援助,减少灵活就业的异地限制等。

(三)政策端着力构建良好公私合作框架,打通AI“研发-应用”迭代互促渠道

AI技术具有明确的非连续性创新特征,所谓非连续性技术创新是指采用与主流技术截然不同的技术路线,旨在实现产品性能或成本上的数量级改进,其具有强颠覆性和弱预见性两个特点。强颠覆性意味着,该技术发展可以快速削弱传统国家或企业长期积累的技术优势,改变市场主体的力量对比;弱预见性是指技术路径具有不确定性,难以事先精准预测最终将成功的技术路径,两个特征均导致发展非连续性创新是各国摆脱发展限制的客观需要和占优策略[108]。AI正是具备强颠覆性与弱预见性的非连续性创新技术。在这一前提下,一方面,初级创新的领先者地位随时有可能由于新技术路径的突破而发生动摇,因此,即使当前追赶面临挑战,有机会跟随前沿的大国仍不可松懈对研发端的持续投入和大力支持;另一方面,为相对降低AI技术弱预见性带来的不确定性,有条件的大国在技术相对成熟的应用端广泛探索、提前布局将有可能实现后发先至。而要实现研发和应用两方面的互促共进,离不开政策端发力,构建良好的公私合作框架,激发公私研究机构和企业的创新活力,为技术成果的应用和推广提供支持,从而打通初级创新与次级创新相互迭代的进路。参考2023年美国国家科学基金会与其他联邦机构和高等院校合作,宣布成立七个新的AI研究所并提供战略性联邦投资,推动AI在科学和工业界的应用加速[109]。还可借鉴欧盟《人工智能白皮书》中提出的构建“生态系统”的思路,适当增加对AI研发的公共投资,成立“AI研发公私网络”[110],促进学术界和产业界紧密融合,吸引更多私营部门参与,鼓励初创公司在相对有保障的环境中测试新技术新产品,并提供后续市场接口,促进其商业化。

(四)“研发弱,应用优”需要放大市场需求对技术供给的反馈促进作用

根据AI发展指数,中国研发相对落后、应用较为领先的格局表明,撬动市场需求对技术供给的反馈促进作用可能成为研发追赶的重要发力方向。算力方面,AI研发需要平衡用户使用感受的改善和模型智能水平的突破,应用端的用户规模、使用习惯和智能需求等能够指导研发端算力性能和规模的部署。对于不同类型的算力要求,再通过建设算力基础设施加强算力资源的统筹规划和调度,同时鼓励相关企业和科研机构协同开展算力芯片、架构、系统等关键技术的攻关。算法方面,协调AI开发者社区定期举办各类场景的创新大赛,鼓励AI解决方案提供商积极对接企业需求与技术供给,从而帮助研究和开发人员积累实战经验,并基于现实用例不断探索算法优化的可能。数据方面,为相关应用场景或相似用户画像的企业搭建公共数据平台,借助匿名或加密技术,在安全合规的前提下,推动生产和使用过程中的数据及其处理技术的共享。这将通过流程标准化和规模效应降低获取、清洗和分析数据的成本,帮助解决研发端数据规模不足、可得性差的问题,还可能利用数据之间的潜在关联进一步提高模型表现。金融方面,通过研发费用的税收减免等方式鼓励企业将AI产品的盈利投入研发环节,强化应用到研发的反哺机制;同时,为AI应用企业、AI研发机构和投资机构提供交流平台,拓宽创新主体之间的对接渠道。


注:本文摘自中金研究于2024年6月27日已经发布的《第一章 迈入通用模型时代,迎接智能融合浪潮》,分析师:周子彭 S0080520070004 ;李娜 S0080123070023;陆趣 S0080523070003;刘梦玲 S0080123010024

格隆汇声明:文中观点均来自原作者,不代表格隆汇观点及立场。特别提醒,投资决策需建立在独立思考之上,本文内容仅供参考,不作为实际操作建议,交易风险自担。

相关阅读

评论