腾讯星脉网络2.0发布:AI大模型训练效率跃升新台阶

腾讯星脉网络2.0发布:AI大模型训练效率跃升新台阶

在AI技术日新月异的今天,高性能计算网络成为了推动AI大模型训练效率提升的关键力量。7月1日,腾讯宣布其自研的星脉高性能计算网络全面升级至2.0版本,这一重大更新不仅标志着腾讯在AI基础设施领域的又一次飞跃,更为AI大模型的训练效率带来了显著的提升。

星脉网络2.0的发布,是腾讯在AI算力领域深耕细作的重要成果。据腾讯官方介绍,升级后的星脉网络2.0搭载了全自研的网络设备与AI算力网卡,这一创新设计使得网络通信效率相比上一代产品提升了60%。这一显著提升,得益于腾讯在硬件设备上的全面升级:自研交换机从25.6T容量提升至51.2T,容量翻倍;自研硅光模块从200G升级到400G,速率同样翻倍;整机通信带宽更是达到了业界领先的3.2T。这些硬件上的突破,为星脉网络2.0提供了强大的性能支撑。

除了硬件升级,星脉网络2.0在软件层面同样进行了深度优化。腾讯自研的全新通信协议TiTa2.0,其部署位置从交换机转移到了网卡上,拥塞算法也从被动拥塞算法升级为主动拥塞控制算法。这一改变使得网络能够更智能地调整数据包发送速率,有效避免网络拥堵,从而实现通信效率的进一步提升。据腾讯官方数据,TiTa2.0的部署使得星脉网络的通信效率再提升30%,大模型训练效率也相应提升了10%。

此外,腾讯还推出了全新高性能集合通信库TCCL2.0。该通信库采用NVLINK+NET异构并行通信技术,实现了数据的并行传输。同时,TCCL2.0内置的Auto-Tune Network Expert自适应算法,能够根据机型、网络规模、模型算法等差异,自动调整数据包分割大小、匹配算法等参数,从而进一步提升通信性能。在TCCL2.0的助力下,星脉网络的通信性能再次提升30%,大模型训练效率也相应提升了10%。

综合TiTa2.0与TCCL2.0的升级效果,星脉网络2.0的整体通信效率提升了60%,大模型训练效率则提升了20%。这意味着,原本需要较长时间完成的大模型训练任务,现在可以在更短的时间内完成。例如,原来需要100秒完成的计算结果同步,现在只需40秒;原本需要50天训练的模型,现在只需40天即可完成。这一效率提升,对于AI大模型的研发和应用来说,无疑具有重大的意义。

腾讯星脉网络2.0的发布,不仅展现了腾讯在AI基础设施领域的强大实力,更为AI大模型的训练效率提升提供了有力的支持。随着AI技术的不断发展,腾讯将继续加大在AI基础设施领域的投入,推动AI技术的创新与应用,为数字经济的发展贡献更多的力量。(数据支持:天眼查)


格隆汇声明:文中观点均来自原作者,不代表格隆汇观点及立场。特别提醒,投资决策需建立在独立思考之上,本文内容仅供参考,不作为实际操作建议,交易风险自担。

相关阅读

评论