AI时代的下一个“光模块”

散热革命

过去一年,生成式人工智能和大模型在科研和商业化领域突飞猛进,作为赛道参与者,巨头们不惜花重金打造先进的基础设施,以应对一个由AI作为最佳生产力的未来世界。

据分析,2024年AI服务器产值将达到1,870亿美元,占整体服务器比重高达65%;全年出货量增长41.5%,市场份额大幅提升。

在移动设备一侧,AI元年开启了手机、PC等智能终端走向新的换代周期。但随着高性能算力部署的增加,传输速率和功耗要求纷纷将痛点指向了冷却设备。

算力离不开它,如同AI芯片、光模块、交换机一样。随着技术层层迭代,散热技术的产业生态一直在演进。

下一个“光模块”的机会,或许将发生于此。


01


今年3月,英伟达推出的B100 GPU芯片宣布将采用液冷散热技术,在A股市场掀起了一波不小的热潮。那段时间,Wind液冷服务器指数从底部经历一波反弹。

之所以反应热烈,英伟达从B100开始,未来所有产品的散热技术都将从风冷转至液冷,这意味着AI服务器需求同样将拉动液冷散热需求,有望迎来一波爆发式增长。

而国内数据中心运营商从去年已经开始加快智算中心建设,落地完善国产AI生态,华为、浪潮信息、超聚三等厂商相继推出液冷解决方案。整个国内市场规模去年增长了52.6%,2028年有望达到102亿美元。

其实,与AI芯片、光模块的迭代规律类似,未来的AI时代,基础设施必然要满足高速、高效、高度互联的要求,硬件升级之路历经从“用不起”到成为“刚需”,散热也是从自然风冷、空调风扇,散热片,继而再到液冷。

为什么液冷散热一定会成为“标配”呢?

其中好几个外部条件目前已经具备。

众所周知,当电子设备温度过高时,工作性能会大幅度衰减。当芯片的工作温度靠近70-80℃ 时,温度每升高10℃,芯片的性能会降低约50%,有超过55%的电子设备失效形式都是温度过高引起的。

未来,高性能算力的芯片功耗甚至将加速上升。根据《数据中心服务器功耗模型研究进展》,通用服务器内CPU、内存、存储等器件功耗占比为32%、14%、5%。Intel2024年预期推出的Granit e Rapids CPU预期功耗预期更高。2024年英伟达推出的B200GPU,功耗达到1000W,已经突破了风冷的散热极限。

降低能耗的关键就是要提高散热效率。

PUE是评价数据中心能源效率的核心指标(数据中心总能耗/IT设备能耗),数值越接近1,表示数据中心能效越高。如果无法大量升级IT设备效率时,另一种途径就是提高散热系统的效率,简单理解就是让空调更省电。

我国数据中心的能耗水平还有待降低,根据《中国数据中心产业(宁夏)发展白皮书(2022年)》,2021年全国IDC平均PUE为1.49。在国内“双碳”和“东数西算”双重政策要求下,全国新建大型、超大型数据中心平均PUE降到1.3以下,集群内PUE要求东部≤1.25、西部≤1.2,先进示范工程≤1.15。

对比之下,全液冷的节能优势非常明显。据数智前线,要实现1000kW散热,如果完全使用传统风冷空调,需消耗约500kW电能;而全液冷散热则仅需消耗约30kW电能。由此可知,全液冷相较风冷节能高达90%以上,液冷占比越高,则节能收益越明显。

数据中心的生命周期成本里包括了前期投资以及日常的运营维护成本,其中最大的变动项目就是电费支出。当数据中心上架率提高时,电费支出这一项在日常运营成本中的占比便会大幅提升。

现在初期项目建设就要考虑降低PUE,又要在成本上增加一笔,而规模应用的前提条件是,升级温控系统能让后期电费支出节省下来,进而优化生命周期成本。

下游不同主体的运营商都在加速推进液冷技术的运用,比如三大电信运营商这样规划:2025年以后要开展规模应用,50%以上数据中心项目应用液冷技术。目前液冷带来的技术便利,足以替代风冷成为主流技术应用。

所以,采用更加节能、效率较高的散热技术,降低能耗水平是这轮数据中心投资建设的一大趋势。

数据中心温控系统的参与者大致分为两类,一种原本是服务器厂商或者数据中心的直接建设方,但是有一定的液冷解决方案的能力,比如做液冷服务器的浪潮信息、曙光数创,以及IDC厂商润泽科技和数据港;

另一种是专门打造温控系统的技术提供商,其中所涉及的领域又有层次差别,一类是靠近服务器芯片内侧,提供冷板组件、快速接头等零部件的供应商,比如飞荣达、领益制造等;

另一类是在服务器、机柜侧、甚至整个机房都能够提供全链条液冷方案的技术供应商,像英维克、高澜股份、以及和英伟达有深度合作的维谛技术。

从服务器厂商销售量看,2023年国内市场占比前三厂商是浪潮信息、超聚变和宁畅,占据七成以上市场份额。根据机构测算,2025年当AI服务器出货量超过140万台,且基本为液冷服务器时,市场规模将超过1600亿,对应增长超过8倍!


02


随着近期iOS 18.1 Beta版本上线,苹果的Apple Intelligence也终于和大家见面,能够体验到苹果AI的部分功能,包括焕然一新的Siri,背后由Open AI在内多个大模型提供性能支撑。

相比于数据中心,未来端侧AI设备的散热要求更加精细,跟着芯片一同迭代。

当智能设备集成度、工作速度提升,电子设备朝着小型化发展、元件密度增大、电源续航能力提高,电子设备系统功耗增加,单位体积产生的热量持续上升。

消费电子产品的散热方式一般分为两种,笔记本、台式电脑因为性能较高且内部空间大,需要主动散热;而像手机、平板这种移动设备体积小,便携性高,多采用被动散热。

在智能手机的硬件升级过程中,散热材料就经历了三个阶段的迭代。

第一个阶段—石墨散热膜。手机散热部件最早可以追溯到2010年的iPhone 4,采用A4芯片的iPhone 4在玻璃背盖、不锈钢中板、L 型主板屏蔽罩上都粘贴了大块石墨散热膜,这也是第一次在智能手机上大面积使用。

石墨的横向热传导能力极高,且具有轻、薄的特点,非常适合于均摊芯片工作时产生的局部热量。2011年8月,经过小米初代手机的宣传,石墨散热膜就此成为手机散热的主流导热材料,直至2016年被热管散热所替代。

热管散热也叫“液冷散热”,原理是利用金属铜优秀的导热性和铜管中液体的冷凝转换导出手机中的热量,突出优势在于使用寿命长和布置灵活,显著提升了散热效果,得到了三星的青睐,从2016年的Galaxy 7开始,直到去年的Galaxy 23都在使用热管散热技术。

从4G进入5G时代,手机数据传输速率、射频模组都有着巨大提升,无线充电、NFC等功能也逐渐成为标配,对手机散热提出了新的要求,VC(均热板)脱颖而出成为主流方案。

均热板散热原理与热管相似,但区别在于传导方式可以覆盖更多热源区域,实现整体散热,并且VC 均热板更加轻薄,更加符合目前手机轻薄化、空间利用最大化的发展趋势。

Vivo和华为均热板示意图

目前除了以均热板散热为主,智能手机还使用散热膜辅助。最流行的材料便是石墨烯,拥有比铜更好的导电性,以及超过钢100的强度,能够快速扩散热量,很适用于现在的折叠屏手机,解决因为折叠展开导致的散热不均。

据Market Watch统计,全球热管市场规模在2022年达到了30亿美元;全球均热板市场规模大约为46亿元人民币。

在散热材料上,国内中石科技做了16年,是通信/消费类电子主流导热材料供应商,去年导热材料实现营收11.7亿元,占公司总营收93%。

根据资料,2021年中国导热材料市场,国内厂商中领先的中石科技/飞荣达市占率达到了7.2%/7.1%,大部分份额被外资占据,有较大的提升空间。

能够提供完整散热产品的供应商包括领益智造。上半年业绩和利润虽然出现了大幅下滑,但新业务收入规模有所提升。公司正积极切入与AI有关的终端硬件制造,包括手机、服务器、机器人等领域,公司的散热产品覆盖了全产业链,去年下半年已经和客户共同开发了环路VC等散热产品,并且实现量产。

今年2月,公司还发了可转债募集2.66亿资金,用于碳纤维及散热精密件研发生产。

值得一提的是,近期苹果高层访华,领益智造是他们考察的供应商之一。领益作为苹果核心供应商之一,为苹果提供几千种模组件和零部件,涉及多款产品。

苹果AI生态的扩张,领益在供应链中的地位或将得到提升。

对于在果链中规模、利润分配更具优势的企业而言,换机潮一旦爆发,在预期推动和利润循环的正向循环之中,二十倍的估值可能远非上限。

过去一年的AI浪潮里,英伟达、台积电、工业富联们都诠释了这一点。


03


AI的星辰大海,实际上是靠能源、芯片共同堆叠的大基建工程。

先进算力有多耗电,用8000张H100训练100天,需要消耗2600万度电,这意味着三峡一天的发电量,或上海一天用电量的5%。

一万张卡尤甚,科技巨头或许并未满足,要训练出一个真正意义的AGI,门槛可能要跨越十万张卡。但并行运算的GPU集群的管理难度实际上要更高,一张卡坏了之后,剩余卡的处理速度也会慢下来。

降低能耗,将成为本轮AI投资不可或缺的一个方向。(全文完)

格隆汇声明:文中观点均来自原作者,不代表格隆汇观点及立场。特别提醒,投资决策需建立在独立思考之上,本文内容仅供参考,不作为实际操作建议,交易风险自担。

相关阅读

评论