《从Colossus到开源生态:中美AI基础设施的路径分野》

📅 2026/7/1 16:15:39
《从Colossus到开源生态:中美AI基础设施的路径分野》
正文2025年全球AI产业经历了一场前所未有的基础设施军备竞赛。美国这边马斯克的xAI用122天建成了10万块H100 GPU的Colossus超算集群又在92天内扩大到20万卡规模。OpenAI联合软银、甲骨文发起了号称5000亿美元的星际之门Stargate计划。而中国这边DeepSeek用不到600万美元的训练成本做出了比肩GPT-4的开源模型。这不是简单的谁更厉害的问题而是两条完全不同的技术路线选择了不同的答案。美国的大集群主义先看美国做了什么。马斯克的Colossus集群堪称工程奇迹。从第一块GPU上架到集群投入使用只用了122天。这背后是一整套极致工程化的部署体系超微的液冷4U机架、400Gbps的BlueField-3 SuperNIC组网、特斯拉Megapack储能系统削峰填谷。据xAI工程师透露他们在服务器上电前30天就完成了编译器适配H100的矩阵计算单元利用率稳定在98.7%。Colossus 2代更夸张——计划部署55万块GB200和GB300 GPU目标成为世界首个吉瓦级AI训练超算。马斯克放话要在五年内把算力规模扩大到5000万张H100当量耗资可能超过2万亿美元。OpenAI那边也不遑多让。星际之门项目最初承诺四年内投入5000亿美元第一个园区已经在德克萨斯州阿比林动工规划容量1.2吉瓦。虽然2026年该项目传出扩建谈崩、策略转向租而不建的消息但OpenAI与AWS签了七年380亿美元的云合同、与甲骨文签了五年超过3000亿美元的租赁协议——这些数字本身就是对算力即权力的最好注脚。美国路线的核心逻辑用不计成本的硬件投入换取模型性能的绝对领先。中国的开源生态主义与此同时中国走了一条截然不同的路。2025年初DeepSeek R1的发布被视为全球AI开源运动的分水岭。这个MIT许可证下完全开源的模型训练成本约558万美元——不到GPT-4的十分之一。R1不仅公开了推理路径和训练方法还把之前锁在API背后的高级推理能力变成可下载、可微调的开源资产。R1的影响是连锁性的。它打破了三个壁垒- **技术壁垒**推理能力从专有API变成了可复现的工程产物- **采纳壁垒**MIT协议允许商业使用企业可以直接集成到生产环境- **心理壁垒**证明了算力受限条件下依然能通过算法创新取得突破随后中国的开源生态快速爆发。据Hugging Face数据2025年中国公司发布的开源模型数量呈指数级增长。百度从0增长到超过100个开源项目字节跳动和腾讯的增长也达到8到9倍。智谱GLM、阿里通义千问Qwen、月之暗面Kimi K2等众多模型各据一方形成了多模型分散竞争、开源协作共生的独特格局。**中国路线的核心逻辑用开源和生态协作降低门槛靠模型多样性和快速迭代弥补单点算力劣势。**两条路线的技术内涵对比算力策略维度 美国路线 中国路线硬件投入 大集群自研芯片 分布式存量适配芯片策略 H100/H200/B200 存量H800适配国产芯片网络架构 400Gbps RDMAInfiniBand 受限下的通信优化集群规模 万卡→十万卡→百万卡 千卡→万卡为主DeepSeek的开源周2025年2月充分展示了受限条件下的创新FlashMLA、DeepEP、DeepGEMM等底层库都是针对H800等减配卡做的极致优化。因为美国的高端计算卡禁运中国团队被迫把精力花在挖掘现有芯片的计算潜力上——这种被迫创新反而催生了大量底层工程优化。生态策略美国延续了以OpenAI为中心的单模型霸权模式。GPT-4o到o1再到GPT-5一直走的是一个模型统治所有的路线。代价是开发者被锁定在单一生态中定价权完全掌握在API提供方手中。中国则走向了聚合层多模型模式。因为模型厂商众多且各自独立中间需要一层聚合网关来做统一接入。这就是One API这类开源项目发挥作用的地方——它充当了AI模型的路由器让开发者用一个Key切换60模型把选择权还给用户。这种模式天然适合生态碎片化的环境。当有10个模型厂商各自提供API时开发者需要一个聚合层来降低集成成本。而当这个聚合层也是开源的整个生态的进入门槛就更低了。成本结构OpenAI的GPT-4o调用成本一度是DeepSeek的数十倍。虽然两者模型能力有差距但差距并不足以覆盖数十倍的成本差异。这导致大量中小开发者转向低成本方案客观上加速了中国开源模型的采用。一个有趣的交叉现象2025年11月美国发布的领先开源模型Cogito v2.1本质上是基于DeepSeek-V3进行微调的产物。与此同时xAI的Grok虽然闭源但其训练中使用了大量开源工具链。而中国这边阿里通义千问的QwQ-Max-Preview团队也明确表示他们的优化思路部分借鉴了开源社区对R1的反向工程。**封锁正在失效。** 信息是流动的算法是共享的开源协作不受地缘边界限制。聚合层被低估的基础设施在这场中美AI竞赛中有一个角色很少被讨论**聚合网关**。如果把大模型比作发电厂聚合网关就是电网。没有电网每个用户都要自己拉电线到发电厂。美国的电网是OpenAI和微软的Azure——一家独大封闭可控。中国的电网则呈现出分散而开放的格局。聚合网关的价值体现在三个层面1. **降低切换成本**开发者只需要对接一次网关后续改个model参数就能换模型2. **统一计费运维**不用在十多个平台间对账所有计费集中在一点3. **弹性负载均衡**一个渠道拥堵时可以自动切换到另一家这恰恰是中国的优势——模型多、价格战激烈、切换频繁聚合层的需求比美国更迫切。未来展望两条路径各有优劣。美国路线的优势是**集中力量办大事**。百万卡集群训练出的模型在绝对性能上有优势特别是在数理推理、复杂代码生成等场景。但风险也很明显——单点故障、电力消耗巨大Colossus 2代的电力需求据说需要十几个核电站、投资回报周期漫长。中国路线的优势是**生态弹性和成本控制**。开源生态降低了创新门槛让更多参与者入场。但问题在于——缺乏统一的算力调度体系、各家模型能力参差不齐、聚合层的稳定性和性能仍需打磨。但我认为一个被很多人忽略的趋势是**随着开源模型的不断进步单纯依靠算力堆砌的领先会越来越难维持。** 如果开源模型以1/10的成本达到闭源模型90%~95%的能力大部分商业场景会选择更经济实惠的方案。这可能就是未来几年的格局头部玩家OpenAI、xAI继续在最高端场景保持领先而更广泛的应用层则被开源生态和聚合层承接。