OpenAI 自己做芯片了:云厂商把推理算力,一年多铺了一倍多

📅 2026/6/26 4:01:14
OpenAI 自己做芯片了:云厂商把推理算力,一年多铺了一倍多
6 月 24 日晚OpenAI 第一次把和博通做的推理芯片Jalapeño拿出来给人看——专门跑推理年底自己用不外卖。同一天圈子里还在转两组数说的是两件不同的事1.TrendForce5 月北美几家大云2026 年推理算力部署同比 122%训练只有56%。意思是行业里多铺了一倍多推理集群不是某次聊天突然贵 100 倍。2.Deloitte《2026 TMT Predictions》test-time scaling模型「长思考」、推理链拉长相对简单推理——原文举例是 summarize an email总结一封邮件——算力可以超过 100 倍。这是复杂任务和轻量任务的差别不是每条 Agent 回复都 100 倍。跟 Jalapeño 同一天上热搜的还有 Rubin 的Agentic AI、高通的CPU 加速器、灵晟 超算拿 TOP500 第一——全液冷直接写进系统里。算力暴涨从来不只是「多买几张卡」——有时候是同一套集群上面的任务变重了。很多人刷到这些新闻停在「模型又强了」。再往下想一步才会碰到一个不那么性感的问题这些算力最后落在哪儿不是抽象的云是机柜、电缆、冷水、电——不妨叫「底下那层楼」。2026 年这层楼的问题是还在按「训练档」盖但上面跑的任务已经是推理和 Agent 了。先把「翻倍」拆开——三种负载三种脾气「翻倍」三个字太糊。行业里至少有三类东西在涨热负载形态完全不一样负载2026 大家在聊什么像什么底下那层楼容易踩的坑训练大模型预训练、万卡集群短跑冲刺——批次拉满、跑完就歇按峰值功率盖场地逻辑还说得通推理Jalapeño、私有化部署、7×24 在线服务马拉松——一直热着偶尔再来一波高峰场地仍按冲刺标准估平均热负荷被低估Agent / 长思考多步推理、工具调用、test-time scaling间歇猛冲——简单问答不贵复杂任务可差10×–100×Deloitte 估算只加卡冷水和电的平均能力没跟着加训练像冲刺推理像长跑——跑鞋可以一样场地不能是一套标准。换成大白话训练可以按「最猛那一下」去配电力和散热推理得按「一直开着」去配Agent / 长思考还得留出「某几步突然猛冲」的余量。很多项目的问题是卡还在按冲刺标准买任务已经是马拉松了。倒推三层从 AI 新闻往回看「房子」左列是 AI 侧在发生什么右列是算力真要落地时底下谁先得动。层级AI 侧2026算力/热 变了什么底下那层得跟着动什么用法Agent、长思考、推理专用芯片推理部署 122% YoY复杂任务算力10×–100×相对轻量推理规划从「峰值训练」→平均负载 突发机柜Rubin2300W、100% 液冷、整柜 NVL72一柜120kW风冷基本没退路整柜液冷、大功率配电不是贴块冷板就完事园区算力短缺、2030 全球机房电力200–300GWApollo 6 月兆瓦级电 全年散热变压器、集中供冷CDU、一次侧45℃温水PUE 越卡越严算 1 度电有多少用在算力上而不是空调上芯片订到了电和冷水没到位照样跑不满——缺的不一定是 GPU。拆开看1.用法层决定「忙不忙」——Agent 时代忙的是平均不是偶尔拉满那一次。2.机柜层决定「热不热」——Rubin 这一代机柜本身就是系统产品不是旧机房拼拼凑凑。3.园区层决定「能不能长期跑」——新闻里「GPU 售罄」现场经常是电和 CDU 先卡脖子。NVIDIA 6 月讲的45℃ 全液冷 干冷器动的是机柜和园区的接缝机柜敢用更热的冷水园区才少靠冷却塔、少耗水。为什么散热老被拿出来说这条链跟是不是做机房的也有关系算力往上走 → 单柜越来越烫80kW 往 120kW跳→风冷先扛不住再高就要靠液冷把热接走→ 液冷成了默认选项 → 新的卡点变成电够不够、冷水够不够、进水温度行不行。国内政策也在往这个方向推新建大型 AI 智算中心要配液冷各地对PUE每耗 1 度电有多少真正用在算力上的要求也越来越严——不是宣传口号是立项和验收会卡的指标。Rubin 的参考设计把100% 液冷写进部署前提也是同一逻辑芯片一代比一代烫机房不能还按风冷时代留余量。AI 变聪明了底下那层楼也得跟着长高——不然聪明只能停在 PPT 里。机柜里热起来之后热要经过冷板 → 管路 → 机柜外的 CDU → 园区冷水任何一段接不好GPU 都会降频。高功率场景下冷板式两相液冷的价值是把120kW 这一档的热稳稳接进现有园区冷水系统里而不是多堆几个材料名词。冷泉能控在做的事就是机柜侧和园区侧怎么对接、怎么验收、怎么长期跑——把「能跑满算力」做成可交付的工程而不是 PPT 上的参数。明天6/26单独聊2300W 热栈热从芯片到冷水中间每一段怎么分段、哪里最花钱。今天先说到这儿算力翻一轮底下谁先升级。FAQQ100 倍算力是不是夸张A要是理解成「一句话 100 倍」那就夸张了。Deloitte 说的是长思考、复杂推理对比总结邮件那种简单推理。普通聊天到不了 100 倍推理模型「想太久」的任务才会飙。前面说的122%是部署增速说的是行业在多铺推理算力。Q和 2024 年「AI Agent 为什么需要更多液冷」是一回事吗A不是。旧文讲为什么要液冷这里用2026 的新数据122%、Jalapeño、Rubin Agentic梳理升级顺序不是站队。Q不做机房看这些有什么用A刷 AI 新闻时多一个角度模型能力往上走底下基础设施往往要换档。投研、采购、写方案、选云都能用上面那张表判断瓶颈在软件还是卡在电和冷。Q只有英伟达 GPU 吗A高通、Meta CPU 那条线说明异构算力来了——机柜里热密度不再整齐划一。混合机柜怎么分区供冷以后可以单独聊机柜→园区这条逻辑不变。最近刷到的 AI 新闻你觉得更像短跑训练、长跑推理还是偶尔猛冲几步Agent往期#AI算力 #Agent #大模型 #液冷 #Rubin #AI与液冷