美团跑通国产算力万亿模型,探索始于2023年

📅 2026/7/2 9:10:17
美团跑通国产算力万亿模型,探索始于2023年
LongCat团队对国产算力的探索始于2023年是昇腾最大互联网客户之一。文赵艳秋编牛慧昨晚一个消息各大平台流转美团发布并开源1.6万亿参数LongCat-2.0大模型而其中最引人关注的是它的完整训练和推理流程全部在国产算力集群上完成。大模型分为预训练、后训练、推理不同阶段其中预训练的难度大于后训练和推理。此前国产芯片多用于大模型推理这次则实现预训练。这使LongCat-2.0成为首个在国产算力集群上跑通的万亿参数模型。此前最早在国产算力集群上跑通的千亿级模型是科大讯飞的讯飞星火 V3.5。美团官方并未点名具体型号。数智前线获悉LongCat-2.0在昇腾5万卡集群上完成训练和推理全流程。在6月5日美团就携LongCat-2.0预览版参加华为云首届INSPIRE创想者大会主推Coding和智能体功能。01为什么不是DeepSeek而是美团最先跑通数智前线获悉LongCat团队对国产算力的探索始于2023年是昇腾最大的互联网客户之一。一个有趣的问题是为什么最先跑通的不是DeepSeek而是美团这背后是一把手战略选择、企业定位、资源与商业等因素的综合结果。据媒体报道DeepSeek今年推出的V4 模型训练仍在英伟达与CUDA 生态上完成推理则适配了华为昇腾等国产算力平台。这或与DeepSeek的取舍有关它要抢时间追前沿也要考虑既有算力与软件栈积累优先级是模型能力本身护城河是训练效率。在美团方面美团与华为长期保持紧密合作是最早支持鸿蒙的企业之一王兴此前也公开表达过对华为自研芯片路线的支持。同时作为场景驱动的互联网企业出于供应链安全考量美团在战略上选择用全国产算力跑通万亿模型训练。数智前线获悉从2023年起美团团队逐步攻克算子适配、通信优化、分布式稳定性等基础难题。核心要解决的是如何在一个算法生态不够丰富、显存更小、显存带宽更窄国产芯片平台上把技术栈从零跑起来的系统工程问题。以算子为例训练侧美团自研了覆盖Embedding、FA、LSA、MoE等多个确定性算子并在数值可靠性上重写一系列基础算子以提升精度长上下文场景下还自研了确定性注意力算子与KL损失算子推理侧的Super Kernel、Weight Prefetch 同样是算子层的适配。这些能力在成熟的英伟达生态里通常可以直接拿到。美团在LongCat-2.0的介绍中把“预训练在5万余国产算力芯片上耗时月余完成消费超过 35万亿tokens全程无回滚、无不可恢复的loss突刺”放在开头这也是强调其工程突破。值得留意的是其中一些技术是在同行既有实践上优化演进而来。以LongCat稀疏注意力LSA为例报告写明它是“由DeepSeek稀疏注意力DSA演进而来”。02国产算力芯片走向训练此前国产化芯片多用于模型推理而在更难的模型训练环节也在逐步实现突破。2023年科大讯飞与华为开启大模型全栈国产化实战双方成立了算力专项工作“联合特战队”华为投入几百人团队、高峰时期曾有超过千名工程师在合肥讯飞总部联合攻关。科大讯飞基于华为昇腾构建了首个万卡国产算力平台“飞星一号”讯飞星火大模型均是基于华为昇腾算力训练完成。2024年10月科大讯飞宣布启动“飞星二号”总规模为三万卡级昇腾集群。今年6月“飞星二号”前三期已全面投产商用主攻MoE稀疏万亿级基座、超长上下文、智能体强化学习等技术。美团在国产化算力上的探索也始于2023年。2026年6月正式发布基于国产算力的LongCat-2.0万亿参数模型。阿里方面平头哥于2020年立项真武系列PPU对标英伟达GPGPU2025年9月央视新闻报道的三江源智算中心将阿里PPU万卡集群曝光2026年5月平头哥发布新一代训推一体PPU芯片真武M890。百度方面2025年4月百度昆仑芯3.4万卡集群点亮并基于昆仑芯完成对文心5.1等重要版本的训练。目前百度昆仑芯的IPO正在同步推进“AH”两地上市进入关键阶段。寒武纪方面数智前线曾向某采购寒武纪芯片的互联网大厂求证寒武纪芯片未参与大模型训练承担模型推理工作。根据报道寒武纪芯片上有部分行业模型完成训练。由于具身智能相关模型参数较小、数据集比大语言模型也小得多目前已成为国产芯片模型训练的新试验场。2026年1月摩尔线程联合北京智源研究院使用其MTT S5000GPU构建的千卡集群完成具身大脑模型RoboBrain 2.5的全流程训练参数量为80亿。理想汽车等车企也在自研芯片用于训练支撑其具身智能应用的VLA的具身模型。从推理到训练从万亿基座到具身小模型国产算力正在多点跑通。不过有智算中心人士告诉数智前线期望更多国产芯片能跑通从模型训练到推理全流程以将芯片能力更大限度盘活和应用但这确实需要有一定实力的芯片公司与应用方的联合攻坚将是一个逐步突破的过程。