长文本能担起大模型的下一步吗?

大模型发展应回归用户需求

自ChatGPT横空出世后,AI以惊人的速度发展着。在国内,大模型公司竞相围绕“上下文长度”展开争夺。似乎,谁支持的上下文更长,谁的大模型就更有优势。

在业界,凭此概念声量最大的莫属KimiChat。自2023年10月喊出支持20万字上下文后,在今年3月,其将能力扩充10倍,以200万字自居至今。甚至,在一些表述中,可以看到KimiChat支持1000万字的消息。

按常识,200万字的上下文处理的需求低频且边缘。以四大名著之一的《红楼梦》为例,其120章版的书中,全文仅96万字。对一般用户而言,在日常生活和工作中,处理如此之长的文字频率几何?

偏偏,KimiChat便以此作为区别于行业的产品亮点。在2023年,该公司完成超2亿美元融资,估值达25亿美元;而在最近的一轮融资中,更是拿到了超10亿美元的投资。

资本为何看好这家公司?KimiChat是一场泡沫还是确有独到之处?


01“挂羊头卖狗肉”


Transformer是深度学习的一个架构,在原理上,它允许模型在处理序列数据时,计算序列中任意两个元素之间的关系,无论它们之间的距离有多远。2018年后,国内的新一代大模型信徒均受到了Vaswani等人在2017年的论文《Attention Is All You Need》影响,投入到AI的新浪潮之中。

KimiChat的创始人杨植麟也属此列。

然而作为底层架构,Transformer有天然短板。大模型的上下文计算本质上是“接触”信息的深度。大模型所输出的文本本质是在处理数据的序列,在Transformer的框架中,为了让序列中的每个元素(如单词或字符)都能关注到序列中的其他元素,需要进行数据和数据之间的“握手”,从而捕捉到全局上下文信息。

所以,可以理解为,上下文理解的背后是数据频繁“握手”(即Token数)之后得到的结果。

这是一个简单的数学原理,公式记作:N(N-1)/2,,即上下文长度越长,握手的次数就越多。也就是,上下文长度越长,所消耗的Token数越多,这也预示着,Transformer在处理上下文时,一定会遇到瓶颈。

又因每次Token计算的成本取决于算力成本,那么很容易想到,百万字的上下文计算终会突破成本和算力极限。而恰恰,这种成本(时间成本和计算成本)是普通用户难以承受的。

所以,为了让输出结果快速呈现、也为了降低Token计算成本,在业界,以KimiChat为代表的大模型很可能选择了这样的折中策略:即只分析长文本的部分素材(比如前5000字),而对后端文字不采取一一握手计算。

事实上,这也符合用户对于KimiChat等产品的使用观感:即其对前5000字的计算分析较为准确,而对整体文字的把握度比较粗糙。其实,判断这款大模型的上下文计算是否真实,用户只需问大模型“红楼梦整本书出现了多少次贾宝玉?”就可得到显而易见的答案。

在业界,更有工程师专为长文本后半段的文字作了特殊提问,结果是,KimiChat这样的大模型本质上并没有学习所有的文本,而是仅作了泛化处理。


02商业诚信与精神胜利法


在2024年4月24日,澎湃新闻的一则文章中,披露了月之暗面(KimiChat)创始人杨植麟套现数千万美元的消息。此消息一出,舆论炸锅。人们很容易联想到此前周鸿祎前妻、昆仑万维老板的所作所为。

试问,有谁能比创始人更加了解自家技术到底几何?

客观而言,在资本层面,创始人套现并不是一个好消息。除满足个人财务需求,减少经济压力的因素外,另一种可能的原因是,创始人可能对公司长期成功缺乏信心。

甚至可以大胆的猜想,上下文长度本身就是KimiChat吹的一个资本泡沫。

虽然KimiChat属一级市场项目,但资本的逻辑是相通的。比如,在二级市场,大规模的套现可能会被市场解读为负面信号,甚至是一些公司转盛而衰的标志。

在舆论场,有人指出,杨植麟的行为更像是“割了投资人韭菜”,并将此案例与瑞幸咖啡媲美,作为反向收割投资者的典型荣登大雅之堂。

更为滑稽的是,众多消息中却鲜有人提出KimiChat的宣传缺乏最基本的诚信问题。这不禁让人发问,其所谓的千万字上下文分析难道只是其用来套现的工具?

这种挂羊头卖狗肉的行为,是否真的有利于AI行业发展?


03大模型发展应回归用户需求


现在,可喜的是,相较于KimiChat,更多的大模型公司开始了更加务实的做法。其中,强调非长文本处理成为了一种主流。

非长文本处理之所以大行其道,本质上和操作终端相关。据了解,目前,绝大用户是以手机为载体,使用大模型的。

这样带来一个问题,即手机的屏幕空间有限,极长的长文本处理既没有需求也没有必要。与此相对应地,用户更倾向用户往往通过更多的交互式对话获得结果。比如,一些用户一边浏览电商网站,一边查询商品信息就属典型的消费场景。

对于大模型厂商而言,需要提供新的用户体验,比如只输入较少的文本量便可得到更准确的信息。

这使得,以RAG(增强检索)为代表的技术备受追捧。RAG通过检索提供的额外上下文信息,有助于减少长文本分析存在的理解偏差和输出幻觉(词不达意)。

前者的核心技术优势在于,统合了传统搜索引擎的查询结果,通过以从文档中搜索出相关内容,并把这些内容给到大模型做推理。举个例子,比如读一本200万字的书,长文本技术会逐字逐句挨个读,读完200万字再归纳总结做分析。RAG技术可能只读了这本书每一页的第一行,就通过从互联网检索的信息,比如书评等,去做归纳总结做分析。

RAG结合大模型的好处还有,它不会遗漏关键信息,同时还极大缩短了用户等待时长。所以,在过去的一段时间内,大模型厂商纷纷涉足RAG。

当然,客观而言,想用好RAG,还需要解决该技术对外部搜索存在高度依赖性的问题。通常,外部搜索结果被更多地承载于搜索引擎内,所以,在此领域,传统搜索引擎起家的大模型公司,具有更强优势。

无论从哪个角度看,长文本的应用仍属小众场景,日常非长文本创作需求更广泛。对于绝大部分用户而言,写营销文案、汇报、评语、节日祝福、视频脚本等方面的需求更为普遍。

所以,对于众多大模型厂家而言,应更多关注用户的以上场景——提高这方面的创作效率,才是真正的刚需。

格隆汇声明:文中观点均来自原作者,不代表格隆汇观点及立场。特别提醒,投资决策需建立在独立思考之上,本文内容仅供参考,不作为实际操作建议,交易风险自担。

相关阅读

评论