云豹智能联合编撰《云网融合下智能算力网络应用发展白皮书》,推动DPU走向算力网络中心
在人工智能席卷全球的浪潮下,我们正在跨入一个新算力时代。
2023年10月,工业和信息化部等六部门联合印发《算力基础设施高质量发展行动计划》(以下简称《计划》),指出要围绕计算力、运载力、存储力以及应用赋能四个方面高质量发展,并提出2025年算力基础设施高质量发展指标。《计划》还强调,将针对智能计算、超级计算和边缘计算等场景,开展数据处理器(DPU)、无损网络等技术升级与试点应用,实现算力中心网络高性能传输。
由此可见,未来需要的不仅仅是单一的算力中心,而是一个高效的、面向广泛业务场景的算力集群。这就要求打造将算力和网络融合在一起(即算网融合)的基础设施。这当中,DPU将扮演不可或缺的重要角色。
作为国内头部DPU企业,云豹智能联合中国电信编撰《云网融合下智能算力网络应用发展白皮书》(以下简称《白皮书》),为DPU的技术发展继续添砖加瓦。

01 算网融合,必然趋势
算力网络是一种架构在IP网之上,以算力资源调度和服务为特征的新型网络技术或网络形态。相关算力网络旨在突破诸如数据中心、超算中心、云计算、边缘计算等“孤岛”状态下的计算能力限制,构建算网云一体的新型智能、高效、按需的算力服务体系。
随着AI大模型训练和推理的复杂性不断增加,训练这些模型所需的计算资源也随之增加,同时需要的训练数据集也非常庞大。而在实时推理场景下,部署在实时环境中的AI应用也要求快速、低延迟的推理能力。满足这些要求,需要强大的计算资源来执行模型推理。因此,如何提供高效、便捷的智能算力资源将成为算力网络发展的重要落脚点。
作为算力网络的提供者,电信运营商为了能在瞬息万变的电信市场中保持领先优势,需要在这个算力需求大增的时代一边增强用户体验,一边控制成本。但是,一方面,用户对于网络速度、稳定性和低时延的要求日益提高;另一方面,指数级的流量增长对现有基础设施造成巨大压力,导致维护和升级成本急剧上升。此外,技术的快速更新换代也给电信运营商带来挑战,不断涌现的新技术需要运营商具备强大的研发和应用能力;加之不同地区和用户群体的需求差异较大,使得网络规划和资源分配变得极为复杂。
为了应对这些挑战,支撑灵活多变的网络资源、算力资源和数据资源调配需求,电信运营商正在积极引入NFV(网络虚拟化)、SRv6(段路由)等先进技术,实现网络资源的灵活调配和高效利用,建设和发展智能算力网络,提高网络的承载能力和服务质量,从而在满足用户对高速、稳定网络需求的同时,有效控制成本。
不同的终端应用也给智能算力网络提出了不同的需求。《白皮书》中指出“网络边缘区域需要低时延,高算力特性;网络传输区域需要高带宽,低时延特性;核心网络需要高数据吞吐、巨量通用CPU算力和高并行GPU算力的特点。”另外,“在不同的网络分层结构中,云网需要面对复杂多变的应用场景,现存的网络中包含数据中心、超算中心、边缘云等‘孤岛’网络,各自为战,不能有效地最大化算力资源的利用率。”
此时,SRv6网络协议就能发挥重要的作用。
02 SRv6,势在必行
SRv6,是Segment Routing IPv6的缩写,也就是基于IPv6(互联网协议第6版)转发平面的段路由,即SR+IPv6,是新一代IP承载协议。SRv6采用现有的IPv6转发技术,通过灵活的IPv6扩展头,实现网络可编程。
无论是面对AI还是电信NFV网络功能,都面临跨网络、跨云的云网融合需求。为此,智能算力网络逐渐开始采用硬件加速和SRv6技术作为其建设的底层技术。
SRv6采用现有的IPv6转发技术,通过灵活的IPv6扩展头,可实现网络可编程。又因为简化了网络协议类型,使得SRv6具有良好的扩展性和可编程性,可满足更多新业务的多样化需求,具备高可靠性,在云业务中有良好的应用前景。从应用上看,SRv6可以被视为对传统的基于MPLS(多协议标签交换)的流量工程和SR技术的升级和扩展,它利用IPv6地址的灵活性和可编程性,提供了更强大的网络功能。由此可见,在智能算力网络建设进程中,SRv6正逐渐展现出愈发关键的作用。
使用基于IPv6的分段路由具备以下四项优势:
第一,可减少网络中实施的协议数量,从而降低运营支出(OPEX);
第二,第二,分段路由可原生支持网络可编程性,不但可以优化分布式计算场景下的网络性能,也可以无缝支持NFV环境;
第三,第三,SRv6同时支持SDN(软件定义网络)、服务链和隧道,可简化NFV实施;
第四,第四,SRv6基于源路由技术,可以在不具备SRv6功能的设备和网络环境上进行增量的SRv6部署,实现对现有网络设备环境的无冲击柔性扩展升级,逐步实现云网的有序融合。
第五,然而,传统支持SRv6的网关在数据面和管控面的实现方案主要依赖通用CPU以软件形式实现,虽然这能够快速打通业务功能和逻辑,但需要额外消耗CPU算力资源。因此,如何设计和利用高性能芯片的硬件加速卸载能力,以提供有效的数据吞吐能力,成为提高智能算力网络功能和性能的重要因素。
随着算力网络的高速发展,上述问题引起广泛关注。
首先,算力网络从概念到实际部署验证在近年来逐步取得发展,与算力网络相关的标准和规范亦都在积极推进中,但是面对快速迭代的技术演进,受困于摩尔定律逐渐失效的CPU就显得有些滞后,然而数据的增长步伐依然没有放缓。
其次,随着数据中心业务的发展,云计算技术逐渐演进,不同的虚拟化技术和资源形态被提出。在云计算资源的管理上,无论从“虚拟机”“裸金属”还是“容器”的角度出发,传统的依托CPU作为中心算力的管控系统都面临挑战。满足用户灵活动态的算力服务需求、降低数据中心的建设运维难度,需要统一的资源管控技术来管理计算资源。
第三,在云计算发展过程中,为了满足不同业务对存储功能的需求,存储技术也在不断完善、加速演进,存储协议和相应的文件系统变得越来越复杂。随着集群规模的增大,服务器上存储IO承载的负担也越来越重。这就让CPU算力资源遭受巨大瓶颈,因为在传统存储技术实现中,针对存储协议处理、存储数据IO操作都是基于CPU的通用算力资源来完成。
第四,同时,《白皮书》中指出,“在数据中心内部,由于长期以来数据转发工作都依赖于节点上的CPU,其性能受生产工艺的物理极限限制,导致其性能提升远落后于网络带宽的发展。”
第五,于是,DPU横空出世,成为新的“救世主”。
03 DPU,走向台前
DPU并不是什么新概念。
全球最大云服务商AWS(亚马逊云服务)早在2013年就开始研发DPU系统,在2017年就大规模部署了Nitro DPU系列。借助这个自研产品,他们把网络、存储、安全和监控等功能分解并转移到专用的芯片和软件上,从而将服务器上几乎所有的资源都提供给服务实例,降低了数据中心总体的运行成本。
其后国内各大云服务商,包括阿里云、腾讯云、百度云、火山引擎都在跟随AWS部署DPU,提升云服务算力资源的效率,降低运营成本。
DPU之所以成为算网融合时代的“救世主”,是因为在数据中心环境中,DPU可以帮助加速和优化多种网络处理任务,包括SRv6,实现更精细的网络流量管理、服务质量保障和安全策略实施,为基于SRv6的网络架构提供更好的性能和功能支持。
《白皮书》指出,“随着网络、算力需求的持续增加,DPU不仅需要高效率提供数据面的加速能力,还需要针对控制面的操作进行解耦和卸载。因此,DPU需要通用的多核处理器提供基础设施软件组件的卸载,以及可编程的网络处理引擎提供对网络数据处理的硬卸载能力和多种特定领域的数据面加速来实现DPU的可编程特性。”
DPU在云计算应用中扮演重要角色,是衔接算力(包括CPU+GPU)和网络两大领域的重要枢纽,也是应用驱动下出现的异构计算设计的必然结果和实践。DPU的体系架构解决了在云计算应用中CPU、GPU低效率或者不能完成的技术难点,在整体上提升运行效率的同时也有效降低了云计算基础设施的投资和运维成本。
DPU体系架构还真正实现了对计算资源、网络资源、存储资源的统一运维和管理,并且可以轻松地支持网络、存储和管控的卸载,支持裸金属应用模式下的宕机迁移,支持虚拟机应用模式下的虚拟机热迁移。
综上所述,从技术上看,DPU拥有灵活可编程、统一资源管控、算力卸载、低时延网络和安全可信等特性。具体到智能算力网络支撑方面,DPU不但能够支持SRv6数据面的卸载,也能够支持SRv6控制面板的卸载、P4数据面和控制面编程。
从云豹智能DPU芯片在SRv6应用实测数据来看,相比传统基于通用CPU技术方案,该芯片的性能提升超过百倍,能显著提升云计算和网络融合的效率,体现了DPU在推动我国数字经济发展过程中具有重要意义。
云豹智能和中国电信等一众本土厂商的相向而行,共同推动DPU走向算力网络中心。
来源:“科技最前线”微信公众号