Agent狂吞Token,表面是模型之争,底层全是煤电博弈

📅 2026/7/2 3:34:48
Agent狂吞Token,表面是模型之争,底层全是煤电博弈
AI行业正在进入一个新阶段不再比“谁的模型更强”而是开始比“谁的账算得更清楚”。当所有人都在讨论模型能力的时候真正的竞争已经悄悄转向了更底层的问题一度电究竟能变成多少个Token。来源InfoQAI开始进入算账阶段过去一年模型厂商不断降价DeepSeek、通义千问、智谱、MiniMax等国产模型也把大模型调用价格拉到了一个新的区间。表面看Token价格是模型厂商之间的竞争结果可如果往更底层看每一个Token背后都有一条从电力、土地、机柜、制冷、网络、存储、GPU调度到企业内部使用方式的长链条。优刻得董事长兼CEO季昕华在接受InfoQ采访中谈到今天企业老板最关心的事情大致有三件第一如何让员工用上、用好AI第二用了一段时间后发现成本很高如何降低成本第三如何真正提高效率。也就是说AI不是不用了而是开始进入算账阶段。Token成本不只是API标价问题它正在变成一场贯穿“电力—算力—模型—应用—组织”的系统工程。优刻得到乌兰察布最早不是因为AI。据优刻得副总裁刘杰回忆2017年筹划建设乌兰察布数据中心时AI还没有真正起来。当时更多考虑的是CPU业务第一栋楼最初也是按照CPU计划来做后面才逐步转向 GPU。那时优刻得的设想是把乌兰察布作为服务北京的“前店后厂”北京是用户和业务前台乌兰察布提供低成本、低时延的数据中心支撑。选择乌兰察布也不是拍脑袋。季昕华提到当时苹果在国内选数据中心由于对优刻得的技术水平比较认可曾让优刻得一起参与选址。他们团队跑了很多地方从贵州、四川、重庆、青海、宁夏、甘肃一路看到内蒙古最后发现乌兰察布是一个很适合建数据中心的地方。原因很直接第一电比较便宜第二苹果要求100%绿电内蒙古有机会做到第三天气比较冷PUE更好做第四离北京近不管是网络时延还是人员往来都比较方便。这些因素放在云计算时代已经重要放到AI时代更重要。因为AI最终会把所有成本打穿到电力上。季昕华在谈到Token降本时说得很直白Token的终局是电力电便宜Token就便宜。内蒙古的优势也正在这里。在现场交流中刘杰表示他们其实也算过一笔账。“以一台某国外顶级服务器为例其功耗约6.5千瓦一台服务器通常有8张GPU 卡。一个千卡集群大约需要125台服务器。仅服务器本身一年耗电就已经是一个很大的数字如果再乘上PUE系数才是数据中心真正要承担的总用电。”这就是为什么数据中心选址、电价、PUE、高功率机柜会直接影响Token成本。过去IDC行业讲“柜子”更关注机柜数量。但AI时代“多少个柜子”本身已经不够说明问题。优刻得青浦数据中心约42亩地设计容量约5000个机柜乌兰察布园区约212亩地设计容量约12000个机柜。但季昕华和优刻得方面都提到传统机柜和今天 AI 算力需要的高功率机柜已经不是一回事。大模型训练和推理需要更高的功率密度。普通机柜可能放不下多台高功耗GPU服务器单机柜供电能力、散热能力、网络布线、液冷能力都会重新定义数据中心价值。现场交流中提到液冷单机柜可以做到35千瓦这背后需要电路和散热系统专门改造。如何真正降低Token成本这也是为什么一些传统低功率数据中心正在出现空置而高功率数据中心反而供不应求。季昕华提到国内现在有些原来低功率数据中心空闲率比较高但像优刻得这类高功率数据中心还没有开始建就已经有订单进来。季昕华表示新建的数据中心按照前几栋楼的情况和市场需求判断满载率预计会非常高已有一些签约订单。数据中心的成本竞争正在从“有没有楼”转向“能不能承载AI”。乌兰察布的优势也不只是便宜电。这里海拔较高年均温度低天然有利于制冷。PUE也就是能源使用效率是数据中心非常关键的指标。简单说数据中心总用电中真正用于服务器计算的比例越高PUE越低能源利用效率越好。气温低意味着制冷能耗下降PUE更容易做低。此外乌兰察布所在区域的能源结构相对稳定。这里有风电、光电也有煤电供电结构更稳。对于AI数据中心来说便宜电固然重要但稳定电力同样重要。GPU集群不怕贵一点怕的是中断和不稳定。训练任务一旦中断损失的不只是电费还有时间、算力窗口和客户信任。所以Token降本的第一层答案是选对地方把电力成本压下来把PUE做下来把高功率机柜建起来。但这只是开始。季昕华在谈到如何降低Token成本时给出了几个方向。第一个方向是使用国内模型。相较海外模型DeepSeek等国内模型在价格上有明显优势智谱、MiniMax等客户和模型厂商也在持续提升能力。对很多企业应用来说并不是所有任务都必须调用最贵、最强的模型。一个85分的模型在某些任务上确实更好但一个 80分模型如果也能完成任务且成本低得多就会成为更现实的选择。第二个方向是从技术上提高“每度电产生Token的数量”。这句话很关键它把AI成本问题重新拉回到基础设施效率上。过去大家习惯讨论每百万Token多少钱但真正决定长期成本的是每一度电最终能转化成多少有效Token。GPU利用率、推理框架、模型部署、网络通信、存储读写都会影响这件事。第三个方向是选择合适的数据中心位置。内蒙古这种电力和气候条件较好的地方可以在底层成本上形成优势。乌兰察布更适合训练以及覆盖北方的大部分推理需求而上海的青浦更适合华东地区对时延更敏感的业务比如金融、汽车等场景也更适合部分推理业务。这实际上对应了“东数西算”的分工逻辑不是所有算力都必须离用户最近也不是所有算力都适合放到西部而是要按任务类型拆分。第四个方向是模型组合。季昕华提到不同模型的能力边界不同企业不能总想着用一个模型解决所有问题。比如有些模型适合前端代码有些模型适合后端有些模型适合测试有些模型适合需求分析或写作。未来更合理的方式是把一个任务拆开让不同模型处理各自擅长的部分甚至由平台自动帮用户选择模型。这点非常重要。因为AI降本并不等于一味调用便宜模型而是在“效果”和“成本”之间做动态路由。一个复杂任务里真正需要顶级模型处理的部分可能只有20%其他部分可以交给更便宜、更快的模型完成。这样才是面向企业级AI应用的真实降本。第五个方向是Prompt管理和Prompt Engineering。很多企业现在一边喊AI成本高一边并没有建立内部使用规则。员工怎么提问、调用什么模型、是否复用模板、是否重复调用、是否把简单问题交给高价模型这些都会影响Token消耗。季昕华提到让员工按照一定规则用好Token也是降本的重要手段。这就把问题从基础设施推进到了组织管理。企业真正的问题不是“有没有AI”而是“AI花出去的钱有没有产生价值”。季昕华谈到优刻得内部每天都会看AI使用报告包括多少员工用了AI、用了多少钱、用在什么场景上。Coding是用量非常大的场景查询、PPT等场景也在增长。但他也承认目前最大的问题是如何衡量这些投入到底带来了多少产出。这可能是所有企业都绕不开的问题。AI工具铺开之后会出现三类情况第一很多员工还在摸索怎么用效果并不稳定第二有些调用并不是为了公司业务而是个人使用第三真正用于公司工作的部分到底提效多少还需要评估。季昕华提到优刻得正在做一个产品帮助企业分析员工使用 AI 是否用于公司工作以及使用效率是否高。Token需求不会只是一次热闹这其实是Token时代企业管理的新命题。SaaS时代企业买软件通常按账号、席位、模块付费。员工越活跃往往说明软件价值越高。但AI不一样用得越多成本越高。如果企业没有治理体系老板推动AI之后很快就会遇到一个尴尬局面感觉没有明显提效但账单多了一大块。因此便宜Token的另一面不是无限调用而是Token治理。这也是为什么季昕华把“如何让老板或管理干部评估Token产生的效益”视为当前最大的挑战之一。AI真正进入企业不只是技术升级也会倒逼生产关系调整。未来组织里高层更需要回答“做什么”和“为什么做”AI更多解决“怎么做”中间还需要懂业务、懂架构的人来驾驭AI避免AI做着做着跑偏。他甚至谈到AI时代的人才观也会变化。过去企业招聘更看重经验但有了AI之后学习一门新技术的门槛下降了。主动性、好奇心、自我反思能力、业务理解可能变得比单纯经验更重要。因为AI每天都在变化真正稀缺的不再只是“会不会写代码”而是能不能判断问题、拆解任务、驾驭工具并把AI产出落到业务结果上。这也解释了为什么Token需求不会只是一次热闹。对于算力需求是否长期持续季昕华给出的判断比较明确Token增长是长期趋势。年初某些现象级智能体应用带动了普通用户快速体验AI但即便热点退去Token量仍在快速增长。原因在于AI能力本身在提升尤其是Coding能力已经让AI真正进入“干活”阶段视频、图片模型让短剧、漫剧等内容生产释放出大量需求广告营销、市场推广、财务、HR等企业内部岗位也开始使用AI此外录音转会议纪要、智能眼镜、智能戒指等AI硬件也在持续消耗Token。这几个需求来源有一个共同点它们不是单次尝鲜而是工作流、内容流和硬件入口的持续消耗。其中Coding是最明确的增长场景。AI写代码的能力提高后企业内部研发效率和工作方式会发生变化。后端工程师可以借助AI快速写前端测试和运维边界也会被打通非研发人员也可以用AI完成部分过去无法独立完成的工作。图像、视频、漫画、短剧则是另一类消耗大户。生成式内容的特点是计算密集、调用频繁、结果需要反复调整天然会产生大量Token和算力需求。再往外看AI硬件把调用入口从电脑和手机扩展到录音设备、眼镜、汽车、戒指等终端一旦硬件入口真正铺开算力需求会更加碎片化、常态化。这也是优刻得判断高功率数据中心会持续供不应求的原因。AI发展最大瓶颈物理基础设施跟不上季昕华把当前国内外的瓶颈做了区分国内最大问题是缺卡海外则是缺数据中心。国内GPU供应受限所以首先要找到卡但有卡之后还需要高功率数据中心来承载。海外很多区域的算力基础设施还远落后于中国除了美国之外不少国家当前反而有大量存储需求比如数字城市、视频监控数据存储等。在国内基础设施瓶颈主要有三个卡的瓶颈数据中心审批和统一管控的挑战以及旧基础设施上的电和水的挑战。中国不缺电但电力配套要跟着产业发展。比特世界的需求可以指数级增长但物理世界是原子世界电网、水、机房、设备交付、施工周期都有现实约束。这句话很适合作为观察AI基础设施的底层逻辑数字需求跑得太快物理供给跟不上。而在物理供给里国产算力也是一个绕不开的话题。季昕华认为国产GPU这几年在国家支持和市场需求引导下性能提升很快目前已经到“可用状态”但整体性能和海外高端产品仍有差距。不过美国限制反而推动国内大模型公司和硬件厂商加快适配未来效率会越来越高。优刻得方面也提到客户对国产算力的明确需求更多体现在希望国产算力与模型加速适配。英伟达已经形成自成体系的生态国产算力如果要真正起来不能只靠单卡参数而要形成模型、框架、工具链和应用端的生态闭环。这也意味着国产算力降本不是简单替代英伟达而是模型和硬件共同适配后的系统优化。从这个角度看AI基础设施的瓶颈总是在移动。季昕华在回答“运力”问题时给了一个很好的解释Token生产是由很多组件共同完成的。最开始可能觉得GPU不够于是先提升GPUGPU提升后发现内存成为瓶颈内存做大后又发现卡与卡之间的网络连接成为瓶颈于是光通信、互联技术开始重要网络解决后CPU调度又跟不上再往后不同机器之间、不同机房之间的连接又会成为新挑战。所以整个系统的工作就是不断找到瓶颈点、突破瓶颈点然后迎接下一个瓶颈点。主要矛盾解决之后次要矛盾就会变成新的主要矛盾。这其实是AI基础设施行业最真实的一面它不是单点技术革命而是连续的系统调优。比如跨数据中心推理。季昕华提到一些算法正在尝试不在同一个数据中心也能实现跨数据中心推理调度。这样可以把分散算力用起来但新的瓶颈会变成不同机房之间的带宽和网络延迟。训练目前还不太适合这样做但推理有机会。又比如分布式推理。目前最大的瓶颈不在时延而在算力资源不足。生图几秒返回、生视频几十秒返回大多数用户可以接受。反而如果把算力分散到各地可能导致资源浪费某个城市节点只有70%或80%使用率空闲资源却无法被其他地方共享。所以当前主流仍然是集中式。未来更可能在边缘侧做缓存有点像CDN通过“以存代算”减少重复计算。例如多个用户询问同一个天气问题答案相同就不必每次重新推理可以直接从本地缓存返回。但这套模式还没有完全收敛。这说明AI推理并不会简单复制互联网时代的边缘计算路径。它既要考虑时延也要考虑算力利用率。当前算力仍然稀缺把资源集中起来往往比过早分散更经济。做中立的Token供应商优刻得在这里找到的定位是做一个中立的算力和模型服务平台。季昕华说优刻得今天已经不只是传统意义上的云计算公司而是扩展成一家数字化公司云、大数据和算力是技术手段。面对AI时代其目标是发挥中立性质帮助大家更好地用好AI也帮助AI公司更好地实现发展。中立性过去是优刻得面向游戏、电商等行业客户的标签。游戏公司可能不愿意用腾讯云电商公司可能顾虑阿里云因为它们与平台本身存在业务竞争。到了AI时代这种中立性被重新放大。阿里有通义千问腾讯有混元字节有豆包对创业型大模型公司来说选择一家相对中立的第三方云厂商可能更容易获得资源支持也能减少潜在竞争顾虑。季昕华还提到优刻得在Token层面也可以保持中立可以接入多个Token来源为客户选择合适的Token。从客户结构看优刻得面向的算力需求主要来自几类第一类是基础模型公司比如智谱、MiniMax、DeepSeek等需要大量卡做训练和推理第二类是行业模型公司比如金融、证券等有自己数据的公司需要在基础模型上训练行业模型第三类是手机、汽车等智能终端第四类是各种应用场景第五类是科学计算。这些客户未必都有能力自建大规模数据中心也未必都能从巨头那里获得足够细致的资源和技术支持。优刻得的差异化在于不只是提供机柜也不只是卖云主机而是试图提供从数据中心、高功率机柜、GPU算力、模型部署、Token计费到企业AI使用治理的一揽子能力。这条路并不轻松。AI基础设施本质上仍然是重资产。数据中心建设需要土地、楼宇、机电、UPS、柴发、制冷、液冷和高功率机柜GPU和AI服务器价格仍在波动客户希望成本下降但上游设备并不便宜。现场交流中提到硬件价格上涨很快但终端客户拿到的算力租赁价格并没有同步上涨中间压力需要云厂商和算力服务商消化。同时数据中心标准也需要调整。季昕华提到现有数据中心标准已经落后于AI行业发展。现在很多高等级标准要求双路供电、两路UPS、两路柴发等冗余设计但并不是所有AI产品都需要这么高标准。未来不同业务可能需要更精细化的数据中心标准而不是所有负载都按最高标准建设。这也意味着AI基础设施的降本不只是“压价格”还包括重新定义什么业务需要什么等级的基础设施。比如训练任务对稳定性要求极高但部分推理任务可能对冗余要求没那么高金融和汽车等敏感业务适合放在青浦等靠近客户的区域普通推理和训练任务则可以放在乌兰察布这种电力成本更优的区域。任务分层、资源分层、模型分层都会成为未来Token降本的一部分。因此Token价格战背后的真实战场已经从模型API页面转移到了电力、数据中心和算力系统深处。当企业真正开始把AI放进代码、营销、财务、HR、会议纪要、智能硬件和行业模型Token就不再是技术圈里的抽象单位而会变成企业账本上的真实支出。而谁能把一度电更高比例地转成有效算力把一张GPU跑出更多有效Token把不同模型组合成更低成本的工作流把员工的AI使用变成可衡量的业务产出谁才有机会在下一轮AI基础设施竞争中留下来。Token便宜的尽头不只是模型降价。是电力是算力是工程能力也是企业重新学会怎么用AI。