AI时代的分岔点:AI Agent或开启AI原生应用时代

本文来自格隆汇专栏:中金研究 作者:白洋肖俨衍高樱洛

展望未来,个性化仍然是Agent有用的重要前提

中金研究

我们认为,AI Agent时代应该从模型、场景、新产品三个维度找优胜者。

Abstract

摘要

大模型面世有望开启AI Agent时代。过去一年,大模型在逻辑推理、智商等方面拥有显著突破,并出现由多模态推动的趋势,如Open AI GPT-4、文生视频Sora以及Google的原生多模态Gemini系列。大模型可以对世界的概率建模,它并不需要理解每一个符号,而当它把标记空间做的足够大时,仅仅通过符号与符号之间连接的丰富性和准确性,就能够产生一个有逻辑的答案。基于此,我们认为大模型或有能力把对AI Agent的畅想落地。更进一步,我们认为AI Agent或可打造出AI原生场景及应用。

AI Agent现状:从基础形态迈向通用Agent。我们认为,AI Agent应用实际落地可分为单一任务和多任务场景。单一任务场景聚焦垂类赛道,AI仅具备相对初级的协同能力,典型案例如社交(如聊天机器人Character.ai、Pi等)、娱乐(如定制化内容生成AI——Sora、Runway等;个性化内容推荐AI等)、游戏(如AI生成游戏资产和NPC、模拟人类世界的生成式代理等)、交易(如电商、本地生活等)、生产力(聚焦办公类,如微软Copilot和Google Gemini)等。多任务场景则代表AI更为高级的阶段,向着通用Agent(具备调配资源并自主集合形成问题解决方案能力的Agent)的方向迈进,典型案例如GPTs、斯坦福小镇等,我们认为这将使Agent从过程导向转变为目的导向的形态。更进一步,我们认为通用Agent未来或可升级为通用机器人(如Google的RT-2),引入线下实践和经验,使其更智能。

AI Agent初期传统龙头基于已有产品的探索看似更加活跃,但长期对其而言,挑战与机遇并存。我们认为,AI Agent在发展初期与传统互联网龙头关联性或更高,主要在于他们资源优势显著,不仅是大模型研发的主要参与者,还把持了现有的商业场景,但现有大模型能力不足,在此基础上或者找到PMF难度较大,或者即使找到的PMF,都有可能随着大模型的快速进化而被降维打击。长期看,对龙头而言,真正的机会出现在围绕scaling law的红利趋缓、底层模型本身进化速度收敛时,如果龙头在技术上仍能保持不掉队,则有望发挥自身的用户和场景优势。同时,AI Agent带来的观念转变,需要大厂在既有文化里去产生新组织,也带来了相应的挑战。

风险

数据、隐私风险;法律道德伦理风险;长期人类生存危机。

Text

正文

大模型面世有望开启AI Agent时代

大模型在逻辑推理、智商等方面拥有显著突破

什么是大模型?大模型[1]由具有大规模参数(通常数百亿甚至更高)的人工神经网络组成,使用自监督学习或半监督学习[2]对大量未标记文本、图片、视频(可通过多种感官信息)进行训练,使得模型能够自然形成文字、图片、视频、甚至动作输出。训练[3]大模型时需要使用大量数据,除预训练(pre-training)外,部分模型还加入了RLHF(从人类反馈中强化学习)的机制,以达到更好的效果。目前常见的大模型有Open AI的GPT系列、Google的Gemini(多模态)以及Meta的LLaMA等。

优秀的LLM(大语言模型)——GPT。GPT作为目前先进的大语言模型之一,其核心特征在于,采用了Transformer架构的神经网络——神经网络的基础是模仿人脑的思维过程,Transformer架构代表了其中一条思考的“脑回路”构造(引入了Attention机制),而这个构造[4]被实践证明是优秀且有效的。因此,以人类语言为学习的出发点,GPT打造了具有较强逻辑推理和泛化能力的LLM模型。Open AI官网显示,GPT-4在不同考试中表现优异且表现明显高于GPT-3.5,证明其逻辑推理及思维能力在稳步提升。

图表:GPT-4在各项考试中崭露头角

资料来源:OpenAI官网,中金公司研究部

原生多模态大模型面世——Gemini。2023年12月,Google发布原生多模态大模型Gemini(优先发布Gemini Pro版本,后于2024年初更新为Gemini Pro 1.5版本),与LLM以语言为出发点不同,Gemini基于多模态数据进行预训练和微调,因此理论上能够更无缝、高效理解、操作和组合包括文本、代码、音频、图像、视频等多种类型信息,且能够进行更为复杂的推理,同时高级编码能力变强。根据Google DeepMind报告,Gemini系列版本Gemini Ultra(已于2024年年初上线,并更名为Gemini Advanced)在一般能力测试MMLU中表现优于GPT-4;在多模态能力测试MMMU中得分超过OpenAI多模态版本GPT-4V,综合能力处于同类模型前列。我们认为,类似Gemini的原生多模态大模型有望从多维度拓宽其自身能力边界,其作为智能大脑有望进一步提升感知能力。

图表:Gemini在多模态能力测试中表现良好

资料来源:Google DeepMind官网,中金公司研究部

视频生成技术模型——Sora。Open AI[5]于近期发布了文生视频大模型Sora。Sora 将不同类型的视觉数据统一为时空Latent Patches,采用Diffusion transformer模型架构替换U-Net架构,从而实现采样的灵活性和取景与构图效果的改善。相比于现有的AI视频模型,Sora所展示出来的优势,主要集中在:(1)超长时长:相比于视频生成模型Runway Gen-2和Pika的最大生成视频长度分别为18秒和3秒,而Sora可以生成长达1分钟的超长视频;(2)多镜头切换:Sora 可在单个视频中设计出多个镜头,并且能在多角度的镜头切换中,实现角色和视觉风格的一致性,而Runway等绝大部分同类模型只能生成单镜头视频;(3)世界模型:Sora显示出能够理解用户提示和了解部分物理世界规律的状态,比如一个人吃汉堡后会留下咬痕、火车车窗上会产生逼真的倒影。

图表:SORA 训练过程中将视觉数据转为 Patch

资料来源:OpenAI官网,中金公司研究部

一个可参考视角:从“类人性”角度理解大模型——Agent成为自然延伸

一个可参考的视角是,从类人角度出发,虽然过程上可能不同,但从最终结果来看,大模型有能力去解决问题。无论是人与人的交互,还是人机之间的交互,都是一个编码和解码的过程。我们能基本理解人类编码的过程,无非是把概念转化为一个符号,但解码的过程我们迄今为止也没有特别好的理解,甚至在不同人的大脑中,解码的方式都不完全相同,也正因此,我们会把这个过程视为“黑箱”一样。不过,虽然我们不完全理解编码和解码的过程、虽然不同人可能拥有不同的解码方式,却不妨碍人类去正常的交流、解决问题,就说明这个过程还是符合一定的统计学规律。举个例子,如果我们把“一粒米”代表一种解码,把“一袋米洒向桌面”代表所有的解码,那米粒散落的形状,大概会呈现出中间多、四周少的样子,米粒越多的地方,说明这种解码方式更靠近多数人的理解,米粒越少的地方,说明这种解码方式是比较少有的。其实,我们也可以把大模型理解为用统计学来建模的过程,解答一个问题,其实也是一个统计学问题。GPT没有去学习我们用来解码和编码的符号,而是通过符号去做训练,用统计学去运算出来结果。它并不需要理解每一个符号,而是仅仅通过符号与符号之间连接的丰富性和准确性,就能够产生一个有逻辑的答案。虽然局限于当前的技术水平,并不是每个答案都能让人满意,但我们可以感受到这种能力的通用性和可扩展性,建立在这种能力上,我们认为大模型有望去解决我们的诸多问题。

图表:GPT在准确性上仍有一定的局限

资料来源:OpenAI官网,中金公司研究部

大模型或可担任未来AI Agent的智能大脑。我们认为,以GPT为代表的大模型展现出了较强的逻辑推理和泛化能力,技术的出现和发展将对人类社会起推动作用,而大模型展现出的“类人性”或可在将来部分替代人脑的功能,成为人类的助手(即Agent的角色)。更进一步,根据丹尼尔.卡尼曼的《思考,快与慢》,人类具备两套思维系统——系统1和系统2,系统1擅长直觉和无意识的快思考,系统2擅长主动控制、有意识地逻辑思考,我们认为大模型或可胜任一部分未来人脑系统2的工作,成为人类的助手。首先,大模型或可具备“类人”的分析问题的能力,能理解、拆解甚至解决问题。其次,人与动物的重要差异之一在于擅长于制造和使用工具,大模型在其认知能力逐渐提升后,如果碰到其不擅长的能力圈(即人脑不擅长的领域),大模型有可能展现出作为“大脑”的使用工具的能力——寻找合适的工具去解决问题,而不是由大模型自己解决问题。

大模型使用工具的现象已有端倪。我们可以看到,ChatGPT提出尝试集成第三方插件以及推出GPTs和GPT Store,本质上一方面在尝试使用工具以补足自身的短板;另一方面,通过壮大GPT相关的应用生态,以实现提升GPT在垂直领域的专业能力。

► 2023年3月23日,OpenAI宣布ChatGPT现在可以集成第三方插件,部分解除了ChatGPT联网的限制。当天,OpenAI公开了首批11个第三方插件,包括Expedia、FiscalNote、Instacart、KAYAK、Klarna、Milo、OpenTable、Shopify、Speak、Wolfram和Zapier,涵盖了实时信息检索、订机票、在线点餐、交通导航、企业办公、流程优化等多个功能领域。

► 2023年11月6日,OpenAI举办DevDay,并推出可用于特定目标的ChatGPT定制版本——GPTs。OpenAI介绍,GPTs能够帮助人们学习任何棋牌游戏的规则、帮助孩子学习数学、设计贴纸等,不需要会编程,人们可以通过跟GPT Builder聊天以生成专属GPT,且GPT Store于2024年1月上线。加入GPT Store的GPTs应用能够被搜索到且参与排名,开发者可以在GPT Store上出售和分享自己的AI工具和应用程序,并参与收入分成,打造开发者和用户共建的GPT生态。

图表:Open AI推出GPTs并引入GPT Store

资料来源:Open AI官网,中金公司研究部


什么是AI Agent?

AI Agent(人工智能助手)是在人工智能领域具有自主决策能力、环境感知能力和反应能力的智能体。Agent这一概念涉及个体的自主性,赋予其行使意志、做出选择、采取行动的能力,而非被动地对外部刺激做出反应。AI Agent强调主体的自主性、反应性、主动性和社交性等方面的能动特征;而大模型之所以适合作为Agents的基础,是因为大模型具有理解生成、复杂推理、自主学习等类人脑功能。

基于大模型的AI Agent畅想具象化:2023年6月Open AI应用研究负责人Lilian Weng发布《LLM Powered Autonomous Agents》(LLM驱动的自主智能体),并在文章中提出“Agent=大型语言模型(LLMs)+规划(Planning)+记忆(Memory)+工具使用(Tools)”的核心架构,使人们畅想中的AI Agent更为具象化。基于Lilian Weng的构想架构,一方面,大语言模型充当大脑的作用,拓展了AI Agent的可能性边界,使得Agent在接收到目标之后进行自主逻辑推理与自我提示,不断寻找目标达成的最佳方式(包括使用工具);另一方面,AI Agent的框架也为大模型提供了结构化思考的场景,同时AI Agent运行过程中获得的反馈可以反向赋能大模型的思考能力。

图表:LLM驱动的自主智能体系统

资料来源:Lilian Weng《LLM Powered Autonomous Agents》(2023),中金公司研究部

根据Lilian Weng,基于大模型的AI Agent应当具备的三项核心能力:1)推理和行动能力,即使用GPT-3.5和GPT-4等LLMs理解、执行和复盘任务,包括将复杂任务拆分为更小的、可控制的子任务以提升效率,并通过过往经验和错误进行调整以提升行动质量;2)短期、长期的记忆能力:短期记忆即利用Prompt中的信息和上下文信息进行学习,长期记忆通常使用外部向量存储和快速检索实现,使得Agents能够在更长的时间范围内保存和回忆(无限)信息;3)调用外部API以使用“工具”的能力,比如浏览网页、打开应用程序、读写文件、支付费用甚至控制用户设备等。与传统的自动化工具相比,AI Agents能够在陌生的、不可预测的新环境中进行工作。

Agent有望成为大模型重要原生应用场景

何为原生应用?我们认为,原生应用的核心特征在于定义新场景。基于某个新技术时代而产生的场景可以分为延伸和原生场景:延伸场景更多基于此前已有的场景改造,例如PC互联网时代的长视频、音乐、游戏等娱乐场景、移动互联网时代的短视频等;而原生场景则是更加突破式创新,是基于新兴技术发展与用户实际需求相结合后,创造或拓展了某些新的使用场景,例如搜索场景之于PC互联网,以及打车、支付之于移动互联网。而展望AI时代,我们认为,当前AI表现出许多与现有场景结合的案例,但AI原生场景及应用还在孕育中,而AI Agent或可真正打造出AI原生范式。

图表:不同技术发展阶段的原生及延伸应用场景

资料来源:中金公司研究部

海外互联网大厂关注AI Agent的发展,Agent或为行业共识的发展方向。去年[6]年初开始,在ChatGPT发布后不久,OpenAI 3月底即推出开源项目Auto GPT,开创了新一代AI Agent的先河,6月Lilian Weng发表了《LLM Powered Autonomous Agents》的文章,详细介绍了基于LLM的AI Agent;Meta的扎克伯格在6月宣布了将带来具有不同个性和能力的AI Agents为用户提供帮助或娱乐,此后于9月发布了人工智能助手Meta AI;微软推动Copilot,让AI Agent的角色初步落地等。我们认为,作为技术先驱引领者,海外互联网龙头在大模型发布后对AI Agent的关注可以从某种程度说明,大模型和AI Agent之间或存在某些深刻联系和推动。下文中我们也将具体介绍不同公司在AI Agent方面应用的最新进展。

图表:各公司关于AI Agent的进度

资料来源:各公司官网,澎湃新闻,机器之心,量子位,产业家,中金公司研究部

基于大模型的AI Agent现状:从基础形态迈向通用Agent

大模型时代到来后,我们认为传统的AI Agent将逐渐被抛弃或转向新的技术路线,而基于大模型的AI Agent发展将被重新划分发展阶段,我们试图对其场景进行分类,并关注其发展状态:如果考虑AI Agent应用实际落地的场景,可分为单一任务场景应用和多任务场景应用,单一任务场景代表AI具备相对初级的协同能力,多任务场景代表AI更为高级的阶段(如具备自主决策能力)。单一任务场景通常聚焦于某个相对垂类的专业领域(如社交、娱乐、游戏、交易、生产力等),AI协同作用主要应用于解决相对垂类且简单的问题,辅以初级Agent能力即可用(或Copilot模式)。多任务场景任务复杂度提升,大模型需要具备拆解、解决任务问题的能力,其所需AI的“智商”(即大模型智能化程度、逻辑推理及泛化能力)包括使用工具的复杂程度更高,发展仍处于早期阶段,但是Agent行业终极目标。

图表:人和AI协作模式划分

资料来源:腾讯研究院,中金公司研究部

单任务场景:从专业领域入手,以点带面

聊天场景:以角色为窗口的Agent

陪伴与情感需求是社交类Agent核心场景。当前,AI Agent在社交场景中以情感类聊天机器人的定位为主,可以提供角色扮演/社交模拟(如Character.ai、Talkie等)、情感支持(如Replika等)、心理健康支持(如Wysa等)等重要功能,本质是在满足用户在陪伴及情感方面的底层需求。Character.ai和Talkie更偏向于角色类平台,涵盖用户需求范围更广,其中存在大量用户自发创造的角色类型;而其他如Replika、Grok、Pi等更聚焦偏单一的角色,存在独特的风格,也旨在满足用户的某些特定需求。

图表:社交场景聊天机器人介绍

资料来源:路透社,data.ai,Financial Times,xAI官网,Inflection官网,华尔街见闻,AppStore,中金公司研究部

根据data.ai,在社交类聊天机器人类目中,Character.ai网站访问量突出,2024年1月MAU为3,694万人,且一直呈现环比上升趋势,月度人均单日使用时长为88分钟,成为所有社交类聊天机器人的榜首;Talkie亦凭借UGC角色平台性质,实现用户快速增长,2024年1月MAU为485万人,人均单日使用时长为65分钟;Replika自成人内容争议以来运行情况承压,活跃用户环比减少,总使用时长波动明显;其余Janitor AI和Crushon AI仍处于早期,用户体量较小。

图表:AI社交场景机器人MAU

资料来源:data.ai,中金公司研究部

图表:社交场景AI人均单日使用时长变化

资料来源:data.ai,中金公司研究部

情感类聊天机器人的烦恼——社交限度在何处。Replika于2017年上线,为专业性AI陪伴聊天机器人,去年[7]曾被用户爆出“性骚扰”的用户投诉。实际上,我们认为,社交限度或许是情感类聊天机器人最大的风险之一,由于其承担了陪伴等亲密社交职能,情感类聊天机器人一方面或许掌握了部分用户隐私信息,AI如果不能妥善处理这部分数据,也将面临新的数据安全问题;另一方面“人机交互”似乎也有条无形的线(如情感底线、意识形态等),AI一旦越界,用户体验会大幅下降甚至触犯法律底线。

娱乐场景:更为个性化的娱乐与内容体验

我们将互联网娱乐场景定义在社交媒体、线上内容(如图文、音视频)等范围内。我们认为, AI的发展短期将进一步加速娱乐场景在内容生产端和用户交互端的变革,长期有望重塑娱乐场景:1)短期来看,AI正在推动传统社交媒体的改造,通过个性化服务(如交互、推荐、生成内容等)提升用户使用体验;2)长期来看,基于AI Agent的原生娱乐场景有望重塑行业。

传统社交媒体平台积极引入AIGC相关功能与AI Copilot/Agent提升用户体验。目前,这类应用在海外社交媒体中进展更迅速,主要集中在:1)提供官方聊天机器人回答用户问题,如Meta AI个人助手、X的Grok和Snapchat的My AI聊天机器人;2)借助文生图等AIGC功能提升用户聊天和分享效率,如Meta推出Restyle、Backdrop图片编辑和Imagine、Reimagine图片生成功能,Snapchat可通过Dreams功能生成特定主题自拍照;3)提供推荐、总结等实用功能,Discord推出对话总结AI功能,Facebook也借助Meta AI更好地在群聊中展现相关信息。我们认为,短期传统社交媒体基于其用户生态、产品经验及前期数据积累,与AI结合后或能更快速地实现功能迭代。

图表:海外社交媒体平台的AI相关应用(部分)

资料来源:各公司官网,中金公司研究部

音视频领域:个性化发展或为潮流,从内容源头至用户终端——内容生成、内容推荐及交互或出现新一轮改革。

► 定制化内容生成:1)音频方面:Curio AI可以针对用户关心话题生成定制播客。2)文生图、文生视频方面:Midjourney、Leonardo.ai、Stable Diffusion等以高质量的图像生成、多样化的样式和风格受到用户青睐;而Runway的AI视频生成工具Gen-2目前可以实现文字/图片/图片+描述生成视频,Pika Labs发布的产品Pika1.0能够生成和编辑3D动画、动漫、卡通和电影,并对现有视频素材中元素进行修改和替换(视频生成视频),最近Open AI更是发布了文生视频模型Sora,将文生视频的整体效果推向新的高峰。

► 个性化内容推荐:Likewise(Bill Gates投资初创公司)推出个人娱乐伴侣Pix,基于超6亿消费者数据点的大数据库,Pix能够根据用户的喜好和行为,推荐适合用户口味的新电影、电视节目、书籍与博客;流媒体音乐服务平台Spotify也在2023年2月借助OpenAI生成式AI技术推出DJ功能,能够通过过往用户喜好智能生成歌单和歌曲评论。

图表:Curio AI可根据主题生成定制化播客

资料来源:Curio AI官网,中金公司研究部

图表:Sora可实现优秀的文生视频

资料来源:Open AI官网,中金公司研究部

游戏:重塑游戏体验

作为另一大娱乐板块——游戏,我们认为AI Agent的赋能从初级的生成/重塑游戏环境(游戏内资产)和游戏角色(NPC)出发,后期有望以生成式代理的形式逐渐形成沉浸式、自主性、创新性的全域游戏体验。我们认为,AI在游戏中根据参与和智能程度可分为几个阶段:1)生产环节的优化:游戏资产生产(人物、场景设计等)的提质增效;2)用户交互体验的提升:智能NPCAI+UGC带来的个性化体验;3)Agent驱动游戏的发展:生成式代理(Generative Agents)对人类世界模拟带来的不可预测性和魅力。

图表:AI有助于游戏资产生产提效和用户游戏体验优化

资料来源:中金公司研究部

电商场景:更便捷的个性化交易体验

交易场景的本质在于匹配“用户-产品/服务”,而我们认为AI Agent初期将以“导购、客服”形态出现,后期有望进一步实现个性化交易体验,即根据用户需求快速、高效匹配相关产品/服务、并处理交易流程,真正成为高效的购物助手。

电商平台积极拥抱“智能客服”+“AI导购”,为用户提供更智能的购物体验。传统电商平台AI助手以智能客服为主,以用户关键词为触发,会出现回答千篇一律、循环重复操作等痛点,我们认为新型AI赋能的智能客服或可改善其问题的理解泛化能力和情感拟人性,从而为用户提供智能、贴心的客服服务,妥善处理购物流程工作。此外,AI逐步具备理解客户购物需求的能力,或可担当AI导购的功能,但我们认为,目前各电商平台推出的为AI初级产品,相比更高级的、根据客户预算和个性偏好定制化购买方案的AI Agent仍有一定距离。

图表:“淘宝问问”用户界面

资料来源:淘宝官方App,中金公司研究部

生产力:商业化进程加速中

生产力场景为当前AI应用最广泛的场景之一,辅助传统行业提效。

首先是图文/视频创作领域,图片领域有Midjourney、Leonardo.ai、Stable Diffusion等高质量AI文生图应用辅助图片设计,目前已有部分应用开始变现——如Midjourney基本计划/标准计划/专业计划/超级计划订阅价格分别为10/30/60/120美元/月;视频领域有Runway、Pika Labs、Sora实现文字/图片/图片+描述生成视频,Runway标准版/Pro版/无限版定价分别为15/35/95美元/月,分别对应625积分/2250积分/无限视频生成;Pika Labs产品Pika1.0为免费版;Sora目前还处于试用期。

图表:重点图片/视频生成产品介绍(部分)

资料来源:各公司官网,CB Insights,中金公司研究部

其次是办公领域,许多传统互联网公司在原有产品中嵌入Copilot功能,包括覆盖多场景办公的Microsoft 365 Copilot(以及新推出的个人版Copilot Pro)和Google Gemini、主打轻文档办公的Notion AI、助力代码开发的Copilot X和数据分析处理的Deepnote AI等。

多任务场景:更通用,更智能

我们认为,通用Agent是Agent的终极形态。如果说单一场景的Agent是给用户配置一个专注于解决某个问题的“秘书”,通用场景的Agent则可能有两种形态——一种是Agent本身能够帮助用户解决大多数场景的问题(即“超级秘书”);另一种是通用Agent更像“秘书长”,其能够提供调配不同“秘书”之间资源的框架,从而能够借助不同秘书集合体形成通用Agent的能力。但即使是单任务场景,目前也因生成结果的可控性差,导致交付结果难以预测,进而导致用户体验无法控制。在此基础上,通用Agent相当于把若干个难以预期的结果绑定在一起,用户体验更无法保障,虽然通用Agent是我们理想中更期待的状态,但目前发展仍处于初级阶段。

GPTs:扩充生态的Open AI

OpenAI不断拓展应用生态(GPTs),并推出了GPT Store。2024年1月11日,OpenAI公司宣布GPT Store应用商店正式上线,开发者可以基于GPT模型定制应用,GPT Plus会员及以上用户可使用。据OpenAI称[8],目前已经有超过 300 万个自定义版本的ChatGPT应用(GPTs),最受欢迎的GPTs(截至2024年1月29日)为Canva(作图效率工具)、Logo Creator(作图效率工具)、Consensus(文献研究)等;根据Open AI的统计口径,头部GPTs的Chats数分别为Canva 60万、Logo Creator 50万、Consensus 100万、Image generator 50万。我们认为,GPTs正是OpenAI基于GPT通用大模型能力,并结合它灵活性、适应性的技术,通过在定制化专有场景的方式,去探索综合Agent生态的雏形。

图表:GPT Store界面

注:时间截至2024年1月29日 资料来源:Open AI官网,中金公司研究部

通用Agent试水中。在有LangChain等开源、便捷Agent开发框架下,通用Agent的项目也逐渐露出,早期代表为AutoGPT、BabyAGI等自主式代理Agent,他们主要基于LLM的能力实现多代理的功能(如利用LLM思维中的拆解、排序作用),为人们基于早期LLM驱动AGI的解决方案。此后,又陆续有斯坦福小镇、GPTeam、AutoCorp等生成式代理出现,他们的概念更贴近于通用Agent的含义——通用Agent理论上应该是AI原生的,且Agent在设定支出,其不同Agent之间即可以实现人类生活行为的模拟交互,也可以与其所在环境产生交互,并且还可以与虚拟世界之外的人类产生交互。整体来看,目前通用Agent的尝试还处于初级阶段。

图表:通用Agent现有产品案例

资料来源:Foresight News,AutoGPT官网,Yohei Nakajima官网,Langchain官网,中金公司研究部

展望未来,个性化仍然是Agent有用的重要前提。一个好用的Agent,一方面要具备充分的解决问题能力,这其中则需要强大的Planning(规划)和Action(行动)的能力;另一方面则需要真正“懂”用户,且能不断通过和用户交互获取反馈,持续更新对于用户的理解。当下,随着GPT等优质大模型的推出,以及LangChain等Agent框架使得涉及AI运用的前半部分工作正在获得迅速突破,接下来则需要更深度了解用户,实现个性化突破,使其真正能够从过程导向转向目的导向的服务新形态。

图表:Agent与传统应用导向对比

资料来源:中金公司研究部

机器人Agent:连接逻辑推理与物理世界

通用机器人,更高级的AI Agent。我们前文关于AI Agent的阐述还集中于线上的范围,实际上,大模型或许有更广阔的结合场景及应用天地。2023年7月28日,Google DeepMind推出了一款新的机器人模型Robotics Transformer 2(RT-2),其基于全新的视觉-语言-动作(VLA)模型,可以从网络以及过往的机器人数据中学习(在办公室厨房环境中使用13个机器人在17个月内收集),并转化为机器人控制的通用指令。

图表:RT-2可以正确操作“捡起灭绝的动物”(即恐龙)的指令

资料来源:Google DeepMind官网,中金公司研究部

我们认为,以RT-2为代表的通用机器人,长期有望成为兼具线下场景的Agent。前文我们已经分析了RT-2的部分原理和优势,我们认为以RT-2为代表的机器人,融合了理解能力和行动能力,一方面可以通过“指令-动作”的链路承担线下个人助理的工作场景(比如家务),另一方面,长期随着大模型学习与自适应能力的提升,机器人的行为及反馈可以给其“大模型”大脑提供新的数据来源(机器人从实践中学习)。人类的学习主要依靠两种路径——通过理论(以上学、读书等为主)、通过实践(以个人实践为主)。当前以GPT为代表的大模型开创了通过理论(即预训练数据)高效学习的路线,而“从实践中学习”的能力在AGI的世界中暂时空缺,我们认为,大模型与机器人的结合无异于让大脑具备了“四肢感官”(即实践)的能力,有望补齐大模型的学习短板,使AI Agent变得更为智能。

AI Agent展望:传统龙头能否再续辉煌?

发展初期猜想:基于已有产品拓展的AI Agent

AI Agent可能从已有产品场景出发,但这只是初期相对低水平的探索。传统互联网龙头/划时代产品基本都踩准了某个关键的底层场景,并成为其关键的参与者,如微软的Windows操作系统(PC操作系统)、微软Office套件(办公场景工具)、Google的搜索引擎(基于用户提问的搜索场景)、安卓系统(移动端操作系统)、iOS系统(另一个移动端操作系统)、腾讯的微信(即时通讯工具)。这些传统互联网龙头的起家似乎很难找到完全意义上的“一蹴而就”,纵观互联网发展史,可以发现:以上提及的产品几乎都是基于此前已有的产品/场景储备而来。我们认为,基于传统底层场景的AI Agent可能是行业发展第一阶段的主旋律,但这只是初期相对低水平的探索。

原因一:现有龙头资源优势显著,他们不仅是大模型研发的主要参与者,还把持了现有的商业场景

龙头企业从资源角度短期内更能驾驭大模型。基于前文所述,AI Agent与大模型相结合或可更有竞争力,而一个企业是否需要拥有自己的大模型是个老生常谈的问题。我们认为,不论是微软与Open AI的合作,还是Google的Gemini、Meta的LLaMA都表明了,拥有自己的大模型从长期来看将是更有筹码的选择。但不可否认,当前大模型需要大量成本投入(包括GPU算力、电能、水、碳排放、人力成本等),根据华尔街见闻[9],GPT-4单次训练成本为6,300万美元,非小厂所能承担。从推理角度来看,多模态等技术发展可能进一步带来推理成本提升。我们认为,互联网大厂拥有更强的资源、技术、人才储备,且他们有明显的动力去冲击AI,短期内驾驭大模型的可能性更高。

图表:LLaMA部分训练成本

资料来源:Hugo Touvron, Thibaut Lavril, Gautier Izacard, Xavier Martinet,Marie-Anne Lachaux, Timothee Lacroix, Baptiste Rozière, Naman Goyal, Eric Hambro, Faisal Azhar, Aurelien Rodriguez, Armand Joulin, Edouard Grave, Guillaume Lample《LLaMA: Open and Efficient Foundation Language Models》(2023),中金公司研究部

龙头互联网公司覆盖了大部分场景。当前互联网大厂基本涵盖了人们生活的方方面面,即人们的各项行为已基本能从当前的互联网生态中找到对应合适的产品,如操作系统用微软或iOS或安卓、办公用Office、搜索用Google、社交用Facebook / Snapchat /  Instagram、视频用YouTube / Netflix等。在流量成本愈发高企的今天,在现有用户身上探索AI Agent的需求,比从0到1获取新客相对更为经济。

原因二:现有大模型能力不足,在此基础上或者找到PMF难度较大

但之所以我们认为这是初期比较低水平的探索,很大程度上是因为现有大模型的能力不足以支撑AI Agent独立运作。我们认为,当下大模型面临三大关键缺陷:1)大模型的数学和推理逻辑能力仍需加强,尤其面对复杂程度过高的问题时,每一步的预测准确度都至关重要;2)大模型满足及时性需求不如搜索引擎;3)大模型存在可靠性问题,容易出现“幻觉”:大模型所提供给用户的内容是按照概率生成且符合人类思维模式的内容,但不代表其符合现实事实,此即幻觉(Hallucination)。根据哈尔滨工业大学与华为合作的论文《A Survey on Hallucination in Large Language Models: Principles, Taxonomy, Challenges, and Open Questions[10]》,大模型幻觉分为事实性幻觉(Factuality Hallucination)与忠实性幻觉(Faithfulness Hallucination),前者指模型生成的内容与可验证的现实世界事实不一致,后者指模型生成的内容与用户的指令或上下文不一致;而模型产生幻觉的三大来源为数据源、训练过程和推理。AI本身能力不足以及幻觉现象的存在,使得其目前更适合作为现有产品的“附属”,而非独立工作;在现有产品的框架中运作,有助于在发挥大模型优势的同时、缓解大模型能力不足带来的负面影响。

原因三:大模型能力仍在快速进化中,已找到的PMF随时可能被降维打击

各厂商大模型正在进行快速迭代。2023年下半年至今,各家公司开始将精力放在多模态大模型研发上,其中Google在短时间内接连发布Gemini系列(包括1.0 Ultra和1.5 Pro等)、开源Gemma系列和视频模型Genie,OpenAI依靠文生视频模型Sora一鸣惊人,Anthropic也最新发布了Claude 3版本模型,三者仍充当领先地位。同时基于AI的商业化进展逐步推进,各厂商皆开启付费订阅模式,价格在20-30美元/月左右。

与以往诸多案例不同的是,倘若是建立在相对收敛技术上的商业模式,找准了PMF,从0到1所建立起的先发优势可能是非常显著的;然而倘若技术本身在快速迭代,甚至无法准确预计下一次提升的幅度和速度的话,那即使在现有场景上找到了先发优势,也随时有可能被新技术降维打击。

长期发展猜想:机遇与挑战并存

对于传统互联网龙头而言,我们认为除了眼下的优势,长期其仍具备明显优势,在于:

(1)用户飞轮。目前AI领域的竞争更多围绕底层模型,是基于scaling law下各方技术实力的比拼。正因为底层模型围绕scaling law的红利还没结束,导致目前其实谈不上基于用户数据的进化——因为底层模型一旦有大的进化,基于前期落后模型的数据价值就大打折扣。如果模型本身进化速度开始收敛,或者说主要竞争者在追赶过程中彼此相对收敛,那么届时基于用户数据进化的重要性就会凸显。我们预计,未来甚至会有相当大一部分应用,是有望建立在私有数据和私有推理运算的基础上。互联网龙头如果能保证在基础模型能力上不掉队,一旦迎来用户飞轮占主导的阶段,将有望释放前期用户及数据积累的红利。

(2)场景优势。AI Agent要解决用户的需求,无非包含两方面——有用和有趣,而这两方面恰恰是现有龙头长期孜孜不倦所追求的目标。如前所述,正因为目前的竞争更多围绕scaling law下的技术比拼,技术能力强的公司,其优势就会被阶段性放大;但长期看,AI Agent是科学、工程和商业的结合,是技术理想主义和商业化哲学的综合体。

与此同时,我们所看到传统互联网龙头的劣势包括:

(1)AI Agent有可能定义新需求,这会打破传统互联网理论中的某些共识,进而对某些商业模式形成压力。以搜索为例,历史上,人们主动去搜索,搜索引擎被动的响应用户,但以今日头条、抖音等为代表的推荐引擎崛起,证明了相比让用户主动去获取信息,如果思维转变为主动服务用户,让用户自动看到结果,是有能力明显替代搜索需求的。放在AI Agent的语境下,很多场合下,人们搜索并不是为了单纯的获取信息,而是为了通过获得的信息去解决一个问题,所以获取信息并不是终极需求,它只是在前期技术条件下,被定义的一个需求,如果AI Agent能直接帮助用户实现需求,那用户理论上不需要再获取相关信息。

(2)AI Agent是历史上第一次站在用户角度的AI,而此前无论何种技术,都是站在大厂角度的。事实上,在本轮生成式AI的浪潮前,国内互联网大厂判别式AI的技术早已有所积累,甚至在全球都是领先水平。用户想看什么、想买什么,都会在大量数据的积累和先进算法的识别下被互联网龙头猜中十之八九。然而,这种AI的本质是服务于大厂,如何提高完播率、点击率、转化率等目标,而不是真正意义上服务用户的。而AI Agent里的AI,却是需要对用户负责,用户无法想象也无法接受,如果一个AI Agent,可以给用户规划一个需要多花半小时的线路,只为了沿途能让用户有机会经过广告主投放的一个线下店,去增加大厂本身的收入。虽然看似只是立场的简单切换,但它也意味着大厂需要在既有文化里去产生新组织,某种程度上难度甚至要大于从0到1。

AI Agent的风险

潜在风险:从数据、隐私到法律道德伦理、人类生存问题

► 数据、隐私风险

数据方面:首先,当前大模型输出的数据质量和真实性难以得到保障,使得模型输出的信息或执行的操作可能存在误导性。其次,当前大模型中还存在部分人类无法解释的算法“黑箱”缺陷,因此信息生成链路并不完全透明,使得纠偏机制很难完全发挥作用。最后,数据流动过程可能涉及数据安全,包括用户、企业、第三方机构及政府部门之间的输入、存储和输出,设备毁坏、人员操作不当和网络攻击等都容易造成数据泄露。

隐私方面:用户的隐私数据可能被用于训练模型,且难以删除,进而演变成模型输出结果中含有用户隐私数据,造成大范围泄露。

► 法律道德伦理风险

知识产权:一方面,AI生成内容的权利性质和归属存在较大争议;另一方面,基于已有艺术作品、文本内容、代码集等生成的内容,也面临着与原作知识产权相冲突的问题。

违规使用:AI在部分场景的滥用可能涉及违规或违法:例如用AIGC精准分析目标对象特征,定制个性化诈骗话术,自动合成并发送视频、文字等多模态信息,达到诈骗敲诈的目的;或伪造信息,合成虚假的私人视频散布,存在侵害个人肖像权、隐私权和名誉权等风险。

意识形态:AI可能存在意识形态不当的问题,其生成内容或可能制造冲突、激发争议等,严重时或引发社会信任危机、威胁国家安全。

► 长期人类生存危机

AI或对人类的生存带来的挑战和威胁。我们认为,在AI发展过程中,短期之内或面临AI逐步替代人类工作的问题;长期看,根据BBC[11],如果AI的智能大脑实现建立自我意识、形成自我认知的操作,它们有可能会选择性忽略人类的互动,而一旦它们企图建立自身的发展目标,那么很有可能引发侵占人类生存所依赖的资源、栖息地等行为,从而给人类带来生存风险。

[1]https://www.jiqizhixin.com/articles/2023-02-24-2[2]https://analyticsindiamag.com/self-supervised-learning-vs-semi-supervised-learning-how-they-differ/[3]https://www.usenix.org/system/files/sec21-carlini-extracting.pdf[4]https://www.jiqizhixin.com/articles/2023-02-24-2[5]https://openai.com/research/video-generation-models-as-world-simulators[6]https://www.thepaper.cn/newsDetail_forward_24763047[7]https://m.thepaper.cn/newsDetail_forward_22548111[8]https://openai.com/blog/introducing-the-gpt-store[9]https://wallstreetcn.com/articles/3692958[10]https://arxiv.org/pdf/2311.05232.pdf[11]https://www.bbc.com/zhongwen/simp/science-65752703

Source

文章来源

注:本文摘自中金公司于2024年3月12日已经发布的《AI时代的分岔点:AI Agent或开启AI原生应用时代》  ,证券分析师:白洋 分析员 SAC 执证编号:S0080520110002 SFC CE Ref:BGN055

肖俨衍 分析员 SAC 执证编号:S0080521010001 SFC CE Ref:BIL686

高樱洛 分析员 SAC 执证编号:S0080524010008

格隆汇声明:文中观点均来自原作者,不代表格隆汇观点及立场。特别提醒,投资决策需建立在独立思考之上,本文内容仅供参考,不作为实际操作建议,交易风险自担。

相关阅读

评论