Scale-Across场景与技术方案初探

📅 2026/6/26 7:39:59
Scale-Across场景与技术方案初探
作者新华三集团技术委员会总体规划部 张健雄 林涛本文刊于新华三集团《数字化领航》第34期摘要随着AI技术的快速发展基于Scale-up、Scale-out的算力扩展方式已经难以满足Scaling-law带来的需求。2025年下半年业界正式提出Scale-Across跨域扩展理念及相关方案将不同区域部署的算力资源协同利用以满足更大规模的AI训练、推理需求。本文旨在通过对Scale-Across业务需求进行初步分析梳理现有Scale-Across方案构成及技术方案提炼出Scale-Across方案需具备的技术与方案特征为技术人员更好理解该技术领域的现状与发展提供支撑、帮助。关键词AIScale-Across引言当前AI发展以万亿级参数的LLMs为核心推动算力需求快速增长AI模型的训练算力需求约5个月就翻一番。AI算力已成为全球大国科技竞争的重要领域然而传统AI集群架构发展面临挑战影响AI竞争力的持续提高。一方面规模定律Scaling-law持续发挥作用大模型本身的能力与使用效果与算力资源息息相关推动着智算中心建设。另一方面随着算力规模激增智算中心建设因能源、土地的限制逐步受限而影响发展。例如全球顶级的AI超级计算机如xAI的Colossus集群其峰值功耗已超100兆瓦对区域供电能力提出挑战并带来更高的环境压力。为克服上述瓶颈并兼顾能源供给能力现状AI基础设施的扩展必须超越本地局限寻求将分散资源连接为统一逻辑平面的创新架构。因此业界提出了Scale-Across这一新的算力扩展方式通过该方式实现多智算中心算力资源协同打造百万卡规模的AI超级工厂。1 算力资源传统扩展方式及局限性当前算力资源的扩展策略源于IT资源扩展的两大基本方法Scale-up设备扩展内部资源和Scale-out利用设备扩大规模。这两种方法都能够解决因资源如计算能力、内存容量或网络带宽不足而无法满足特定工作负载需求的问题。Scale-up的目标是增强现有处理单元的能力在实践中是首选方案。在AI领域Scale-up聚焦于计算节点内部通过NVLink等技术实现GPU对HBM等的共享访问最大化单节点算力并维持管理和维护一致性。Scale-out则基于分布式计算理论通过增加节点将工作负载通过并行处理或任务调度方式分配到网络的各资源节点上。这种方法提供了理论上无限的扩展能力适用于需要处理大规模并行任务和高并发请求的场景。在AI基础设施中无论Scale-up还是Scale-out其设计都聚焦于本地数据中心的资源优化。当多数据中心算力互联时Scale-up仅限于提升单点算力密度无法直接解决跨地域扩展问题而Scale-out虽然可以连接海量资源但受限于跨地域网络的物理延迟难以支撑高频同步的TP训练通常需转向PP或推理分发等对延迟容忍度更高的架构设计。因此两者都无法直接破解AI发展过程中规模定律与资源约束之间的矛盾。2 Scale-Across业界破解算力发展挑战的尝试当前算力资源的扩展策略源于IT资源扩展的两大基本方法Scale-up设备扩展内部资源和Scale-out利用设备扩大规模。这两种方法都能够解决因资源如计算能力、内存容量或网络带宽不足而无法满足特定工作负载需求的问题。图1 NVIDIAAI所需的三种网络类型是纵向扩展、横向扩展和跨域扩展“跨域扩展是一种全新的AI计算架构连接方式可以将其视为一个全新的维度与现有的Scale-up、Scale-out截然不同。借助跨域扩展网络技术可以将规模和距离各异的多个数据中心整合为一个大型AI工厂。”—NVIDIA《How to Connect Distributed Data Centers Into Large AI Factories with Scale-Across Networking》。“数据中心网络为了满足AI工作负载的需求一直在两个维度上进行扩展Scale-up连接机架内的GPU和Scale-out连接数据中心内的机架。如今第三个维度对于释放AI的全新潜能至关重要“跨域扩展”Scale-Across将AI工作负载扩展到多个数据中心并使它们作为一个统一的集群运行。”—Cisco《The third dimension of AI networking has arrived》。AI训练及推理过程中需要通信网络兼具超高带宽、超低时延及确定性能力保障训推过程稳定、可持续。传统广域网、DCI网络因跨区域互联而容易出现网络时延较高、网络抖动不可控、QoS部署复杂度高等情况难以保障AI训推过程顺利完成。为了在跨域智算中心之间实现Scale-Across目前业界提供了两种不同思路的技术方案。2.1 实现方式1基于“全家桶”实现Scale-Across跨域扩展“全家桶”方案是通过已有的Scale-out以太网交换机和高性能网络卡的硬件组合在算法层面针对跨域场景进行专门优化和提升实现。该方案的核心思路是基于端网协同和软硬件协同机制利用算法根据智算中心间的物理距离动态调整网络配置高效协同跨域智算中心之间算力资源。首批客户实际部署该方案实现了超500米的远距离连接随着软硬件和算法的持续迭代优化预计未来连接距离能够延伸到更远。方案包括以下主要能力。◆自适应长距离拥塞控制算法该算法是“全家桶”方案实现的核心根据智算中心间物理距离动态优化网络传输并解决拥塞问题。包括1分析实时遥测数据包括距离、流量模式、拥塞程度和性能指标等动态调整拥塞控制、路由和负载均衡策略。2考虑和补偿可能因站点而异的网络流量通过结合通信库对算法与参数进行动态调整以确保最高性能。3细粒度自适应路由和逐包调整避免传统网络中常见的丢包或大缓存带来的时延不确定问题确保长距离运行AI负载时网络和GPU保持同步。◆时间同步与毫秒级延迟管理时间同步技术及毫秒级故障恢复机制确保方案实现低时延。包括1硬件级时钟同步技术如PTP可确保分布式数据中心之间精确的时间协调从而减少传输抖动。确保在AI训练中所有GPU节点之间保持严格的时间一致性。2通过BGP协议优化和快速重路由技术实现毫秒级链路故障恢复。◆端到端遥测技术支持网络确定性方案通过端到端遥测实时监控网络链路状态、拥塞程度和性能确保跨多数据中心网络性能可预测。这些端到端遥测数据经过网卡工具平台处理用于网络实现动态路由优化和负载均衡决策确保端到端网络抖动水平维持在极窄区间内确保了时延稳定在17-18ms2025hot chips。网络在性能可预测情况下能够灵活处理长距离传输的数据流并避免传统DCI网络设备因大缓存带来的时延不确定性。◆引入CPO技术实现跨域互联方案中交换机转发芯片采用CPOCo-packaged Optics/光元器件与芯片共同封装通过光纤实现数百米至数十公里数据传输。该芯片应用了定制激光器、MRM微环调制器、COUPECompact Universal Photonic Engine平台等光及芯片领域新技术。交换机使用CPO后每端口功耗降至9W有效减少能源消耗信号路径有效缩短提高了信号完整性分立器件及连接点减少提升了可靠性。2.2 实现方式2以“网络自主”实现Scale-Across跨域扩展“网络自主”方案认为要实现Scale-Across需要应对来自业务与技术的双重挑战。业务挑战包括1智算中心规模增长引发电力供应紧张2传统DCI服务于ToC/ToB业务而非ToAI业务3AI数据在跨越地理边界时需确保安全性与合规性4大型客户倾向开放网络并避免锁定单一供应商。在技术方面RDMA更多面向局域网应用面向Scale-Across场景中需克服更多挑战包括1AI业务依赖网络同时提供大带宽、低时延及确定性2AI业务带来微突发并导致网络性能下降、效率降低3跨域路由复杂、难以预测导致网络策略失效或未达预期。与前述“全家桶”方案不同“网络自主”方案完全基于网络设备实现。面向上述两类挑战“网络自主”方案提出通过单一的融合型产品来满足Scale-Across业务场景。该融合型产品结合了交换机大带宽、高端口密度、高转发效率的特点以及路由器可编程、可扩展、大缓存、高安全的特点。该方案正在联合国际知名云服务公司开展试点验证。该方案的主要应用技术如下。◆多端口共享深度缓存能力该方案认为在Scale-out场景中是由于负载均衡及拥塞控制算法不佳导致了端口缓存易被填满使得网络时延增大和出现抖动从而影响业务但这些问题与缓存本身大小无关。而在Scale-Across场景中大缓存反而能够吸收AI训练过程中的大量微突发、确保性能稳定以及避免重新训练通过降低不必要的数据包传输并结合拥塞控制算法能够为AI训练跨域扩展来更高的可靠性、稳定性。因此融合型设备也为所有端口提供了共用的数据包大缓冲区。◆提供综合性安全能力保障AI安全该方案认为Scale-Across场景基于跨域实现而广域网存在较高的安全风险因此需要融合型设备提供多种安全功能保障AI安全能力。包括1支持MACsec、IPsec、ClearTag和CloudSec等加密技术2内置集成式、防篡改的信任根为系统完整性建立安全基础3提供需身份验证的数据平面软件和配置4通过内置硬件分析器提供纳秒级数据追溯能力。◆支持部署多种操作系统及P4可编程方案认为客户需要开放性不能被单厂家方案绑定。因此融合型产品需要支持如SONiC等多种网络操作系统用于满足各类用户对设备的使用需求。设备使用的转发芯片需支持可编程能力如P4一方面面向开发者和使用者提供SDK以满足产品开放能力的需求另一方面有助于通过在网计算能力面向训练、推理数据进行处理。3 Scale-Across业务需求及潜在技术要求通过梳理“全家桶”和“网络自主”两类Scale-Across方案可以看到方案实现技术虽然差异明显但殊途同归。基于Scale-Across业务特征该类场景可以定义为为突破能源与物理限制需要将多个跨域AI集群抽象为具有一致性、确定性的逻辑AI集群以满足AI训练、推理业务平滑扩展需求。针对业务场景定义Scale-Across方案需要具备如下能力。◆局域、广域协同能力突破因能源供给、地理及空间因素导致的AI集群规模扩展限制实现多个AI集群间的紧密协作。◆资源抽象与整合能力具备将多个AI集群抽象为一个统一的逻辑AI集群的能力面向业务屏蔽掉底层差异。◆资源协同一致性能力实现多个AI集群的资源之间无缝协同和状态逻辑一致让业务感知不到资源切换与调整过程。◆确定性资源供需保障通过统一的逻辑AI集群能够为业务提供稳定可预期的资源供需保障。◆支持实现统一运营运维需要各类资源具备一定开放可编程能力支持实现统一运营运维。Scale-Across方案的目标是将分散的AI集群资源整合成如同本地般高效可用的统一平台既突破物理限制又提升资源利用率与管理效率为AI的持续发展提供坚实基础。同时Scale-Across方案承载的AI业务的流量特征也存在明显差异。◆AI训练流量特征是数据量巨大、持续时间长的高带宽流量如梯度同步。承载网络的挑战是避免拥塞与丢包需要网络支持RDMA并提供高带宽、无损传输、低时延与零丢包。◆AI推理随着PD分离架构引入了Prefill/Decode节点间的KVCache传输流量呈现出高带宽、低时延、突发多、并发多的特点。承载网络挑战是网络必须同时提供超低端到端时延及高带宽保障低时延与实时性。综合业务场景特点与承载网络需求中Scale-Across方案可能涉及应用到如下领域技术。1物理层与承载领域技术提供高带宽、低延迟、高可靠联接。◆CPO技术采用CPO解决超高带宽下功耗和端口密度的限制。通过集成设计能有效解决设备散热、维护和可靠性挑战。未来需具备与OCS/OXC协同部署能力。◆时钟同步能力支持部署IEEE1588、PTP等时钟技术利用GPS/北斗确保Scale-Across设备间达到统一时间基准。时钟同步技术是实现跨域逻辑一致性和确保传输时序的关键能力。◆以太网协议优化/新链路层协议面对广域确定性挑战以太网需要引入如LLR/链路层重传、CBFC/基于信用度流控、与各类通信库进行协同等新技术、新能力解决较长时延下的拥塞控制和RDMA承载问题。最大程度兼容已有以太网标准。◆空芯光纤HCF技术(可选)利用其空气导波特性实现极致的物理低时延传输。该技术用于减少长距离互联时延是提升物理传输速度的有效手段。2确定性流量保障确保AI关键业务流可预知、可确定。◆确定性转发能力通过时钟同步和无阻塞数据交换机制消除硬件拥塞和抖动。基于对沿路节点的确定时延建模承诺延迟上限和极窄抖动为跨域AI任务提供可靠的确定性传输承诺保障时序可预知性。◆确定性部署与控制实现通过采用源路由、Segment Routing实现路径按需调度。应用时隙调度技术类TSN对AI流量进行周期性分配和流量整形。结合遥测驱动的流量工程TTE实现主动式拥塞规避确保消除传输抖动并保障时序可预知性。◆大容量、多队列共享缓存管理能力设备实现大容量、多队列缓存同时支持全局调度和显式资源预留吸收微突发流量。利用AI或算法能力对业务流的缓存空间进行显式隔离和专用预留。确保关键AI流量在任何负载下都能获得资源保障最大限度地降低丢包率。3全局感知与智能控制面建立感知-决策-执行体系实现全局最优的资源调度。◆全局协同感知与智能流控技术利用INT遥测进行分布式感知建立基于Telemetry的全域采集体系通过智能控制面实现统一决策。通过可编程能力如P4 Runtime在毫秒级内向网络注入动态流控策略实现操作闭环。◆数字孪生与可视化运维能力建立与物理网络同步的数字孪生体用于策略预验证、拥塞预测和故障模拟降低智能控制面进行AI调度和实施流控策略的风险确保决策安全性和准确性。通过可视化能力全面管理、运维承载的业务。◆高性能分布式计算框架引入分布式计算框架支持实时流处理作为智能控制面的技术底座。该框架需具备高吞吐、低时延能力处理海量Telemetry数据并支撑AI/ML的运行保障全局协同决策的性能。◆开放性与可编程能力设备应具备开放性和可编程能力芯片支持一定的数据面可编程能力OS需提供开放API、可定制化接口。通过智能控制面跨设备、OS、芯片部署流控策略实现闭环策略的高效执行。4系统韧性与安全边界技术保障架构的安全性、可用性和物理层的快速恢复能力。◆安全与恢复能力设备需支持可信根、线速MACsec等加密与卸载能力保障跨域数据可信、安全。通过智能控制面确保系统在发生故障时通过状态同步、FRR等可靠性技术实现快速自愈。◆OCS/OXC技术可选引入光层OCS/OXC实现对POD间、跨域联接拓扑的软件定义、动态配置。OCS/OXC还可用于弥补CPO在光功率和联接距离上的限制并提供物理层故障隔离。4 Scale-Across场景发展技术挑战与展望Scale-Across的发展目标是将单AI集群资源整合为统一的逻辑AI集群需要通过智能控制面将单AI集群Fabric的确定性能力延伸、跨域。当前的技术挑战主要集中在确定性交付、跨域语义协同和智能控制面的实时性这三大技术领域。为应对AI集群协同需求以及随之而来的能源、空间挑战并满足越来越多的AI推理使用需求Scale-Across方案将持续推动分散的AI集群互联互通。Scale-Across场景与Scale-out场景、Scale-up场景将共同形成AI联接基础设施——AI承载网一张仅用于AI训练、推理的专用网络承载、处理AI产生的通信需求。