FlagOS Day 0 跨芯适配 GLM-5.2:发布即覆盖四款芯片,支持 vLLM + SGLang双插件

📅 2026/6/27 10:31:26
FlagOS Day 0 跨芯适配 GLM-5.2:发布即覆盖四款芯片,支持 vLLM + SGLang双插件
智谱正式发布新一代开源旗舰模型GLM-5.2面向长程任务Long Horizon Task的最新旗舰相比前代 GLM-5.1 在长程任务能力上实现了显著飞跃并以MIT 协议开源。众智 FlagOS 社区第一时间完成多芯片适配与推理部署目前已覆盖摩尔线程、平头哥、沐曦、海光等四款非英伟达芯片。开发者可通过 FlagOS 跨芯开源系统软件栈快速部署模型文件与部署方案同步在魔搭社区与 HuggingFace 提供。GLM-5.2 是一款支持稳定可用的 1M 上下文、专为长程任务Long Horizon Task打造的模型其核心能力包括扎实的 100 万上下文稳定支持长程工作的 100 万 token 上下文灵活投入的高级编码能力更强的编码能力支持多种推理投入级别以平衡性能与延迟改进的架构提出 IndexShare在每四个稀疏注意力层之间复用相同的索引器在 100 万上下文长度下将每个 token 的 FLOPs 降低 2.9 倍改进 MTP 层以支持推测解码接受长度最多提升 20%完全开源MIT 开源许可证无地域限制Part.01FlagOS 双插件跨芯适配vLLM SGLangGLM-5.2 官方基于 vLLMv0.23.0和 SGLangv0.5.13提供推理方案。这两个框架在非 NVIDIA 芯片上依赖 cuBLAS、NCCL 等 NVIDIA 专属组件SGLang 额外依赖 FlashInfer无法直接运行。FlagOS 通过其插件体系vLLM-Plugin-FL和 SGLang-Plugin-FL在不修改框架源码的前提下完成跨芯适配。vLLM-Plugin-FLvLLM-Plugin-FL 的适配分两条独立路径ATen 底层算子通过 flag_gems.enable() 将 PyTorch ATen 算子matmul、softmax 等替换为 FlagGems Triton kernel解决非 NVIDIA 芯片无法调用 cuBLAS/cuDNN 的问题。FlagGems 目前已覆盖 510 算子Triton kernel 只要目标芯片支持 Triton 编译器即可运行。vLLM 融合算子层对于 vLLM 框架特有的融合算子silu_and_mul、rms_norm、rotary、attention 等插件采用三级 fallback 调度优先使用 FlagGems Triton kernel跨芯片通用其次尝试芯片厂商 native kernel针对性优化最终回退至 PyTorch 参考实现功能兜底。SGLang-Plugin-FLSGLang-Plugin-FL 的跨芯能力建立在三层替换机制之上每一层服务于不同的芯片可移植需求ATen 底层算子通过 flag_gems.enable() 将 PyTorch ATen 算子matmul、softmax 等替换为 FlagGems Triton kernel。Triton 是跨芯片编程语言FlagGems kernel 只要目标芯片支持 Triton 编译器即可运行解决非 NVIDIA 芯片无法调用 cuBLAS/cuDNN 的问题。SGLang融合算子层SGLang 的融合算子SiluAndMul、RMSNorm、RotaryEmbedding 等依赖 NVIDIA 专属 sgl_kernel非 NVIDIA 芯片无法执行。插件通过 HookRegistry.AROUND 拦截融合算子 dispatch路由至与 vLLM-Plugin-FL 对齐的调度系统采用三级 fallback优先使用 FlagGems Triton kernel跨芯片通用其次尝试芯片厂商 native kernel针对性优化最终回退至 PyTorch 参考实现功能兜底。分布式通信层SGLang 多卡推理依赖 NCCL。插件通过 hook 拦截通信操作注入 CommunicatorFL 将通信路由至 FlagCX 跨芯通信抽象层底层适配各芯片原生通信库。芯片厂商接入两种插件采用一致的芯片厂商接入方式实现一个 Backend 子类含硬件检测和算子实现编写 register_ops.py 声明算子覆盖范围并在 platform.py 中添加一行通信后端映射。厂商目录放置后由插件自动发现加载同一套后端实现可同时用于 vLLM-Plugin-FL 和 SGLang-Plugin-FL无需修改插件源码。精度评测核心能力与原生版本对齐经 GPQA Diamond 和 MuSR 等权威评测集验证FlagOS 适配后的 GLM-5.2 在国产芯片上的推理精度与英伟达原生高度接近。本次评测以英伟达原生作为精度基线在统一测试环境下进行交叉验证评测说明本结果仅用于跨芯适配精度对齐。由于评测代码和环境为实验室内部环境并不代表智谱模型官方性能。评测结果仅反映芯片 FlagOS 软件栈组合的表现非纯硬件对比。Part.02开发者速用指南FlagOS 社区已完成 GLM-5.2 的跨芯适配开发者可选择 vLLM-Plugin-FL 或 SGLang-Plugin-FL 进行部署。两种方式均通过 FlagGems 算子库实现跨芯片推理安装后即装即用。方式一vLLM-Plugin-FL 部署目前支持平头哥、沐曦和海光芯片。快速安装# 1. 安装 vLLM v0.20.2 or vLLM v0.13.0pip install vllm0.20.2 # 2. 安装 vllm-plugin-FLgit clone https://github.com/flagos-ai/vllm-plugin-FLcd vllm-plugin-FLpip install --no-build-isolation -e . # 3. 安装 FlagGems 算子库git clone https://github.com/flagos-ai/FlagGemscd FlagGems git checkout v5.0.0pip install --no-build-isolation -e . # 4. (可选) 安装 FlagTree 跨芯编译器python3 -m pip uninstall -y tritonpython3 -m pip install flagtree0.5.0 --index-urlhttps://resource.flagos.net/repository/flagos-pypi-hosted/simple # 5. (可选) 安装 FlagCX 跨芯通信库# 详见 https://github.com/flagos-ai/FlagCX运行推理# 5. 下载 GLM-5.2 模型# 魔搭下载pip install modelscopemodelscope download ZhipuAI/GLM-5.2# 或 HuggingFace 下载huggingface-cli download zai-org/GLM-5.2 # 6. 启动 vLLM 推理服务from vllm import LLM, SamplingParamsprompts [请介绍下众智FlagOS 2.1的新功能]sampling_params SamplingParams(max_tokens10, temperature0.0)llm LLM(modelzai-org/GLM-5.2, max_num_batched_tokens16384, max_num_seqs2048)outputs llm.generate(prompts, sampling_params)for output in outputs: print(fPrompt: {output.prompt!r}) print(fGenerated: {output.outputs[0].text!r})方式二SGLang-Plugin-FL 部署目前支持摩尔线程芯片。快速安装# 1. 安装 SGLangpip install sglang[all]0.5.11 # 2. 安装 FlagGems 算子库v5.3.0git clone https://github.com/flagos-ai/FlagGemscd FlagGems git checkout tags/v5.3.0 pip install . # 3. 安装 SGLang-Plugin-FLgit clone https://github.com/flagos-ai/sglang-plugin-FLcd sglang-plugin-FL pip install . # 4. (可选) 安装 FlagCX 跨芯通信库# 详见 https://github.com/flagos-ai/FlagCX运行推理# 5. 下载 GLM-5.2 模型# 魔搭下载pip install modelscopemodelscope download ZhipuAI/GLM-5.2# 或 HuggingFace 下载huggingface-cli download zai-org/GLM-5.2 # 6. 启动 SGLang 推理服务SGLang-Plugin-FL 自动加载python -m sglang.launch_server \ --model zai-org/GLM-5.2 \ --tp 8 \ --trust-remote-code # 7. 发送推理请求curl http://localhost:30000/generate \ -H Content-Type: application/json \ -d { text: 请介绍下众智FlagOS 2.1的新功能, sampling_params: {temperature: 0, max_new_tokens: 256} }方式三模型镜像直接下载用户也可以直接拉取 FlagRelease 上发布的迁移后的模型文件、代码和镜像。以下是迁移适配后的几种 AI 芯片的模型版本开箱即用、无需迁移。魔搭平台HuggingFace 平台Part.03FlagOS 2.1 技术底座面向 AI Agent 时代的系统软件基石FlagOS 2.1 也于近期发布它是北京智源人工智能研究院联合北大、清华、中科院计算所等科研机构以及十多家芯片厂商、操作系统与服务器厂商共同打造的面向 AI Agent 时代的多芯片系统软件栈。其核心架构分四层多领域算子库FlagGems 及 6 大领域库→ 跨芯编译器FlagTree→ 跨芯通信库FlagCX→ 多框架插件体系向上通过 AI Agent 工具链KernelGen / FlagScale Agent / FlagRelease实现自动化的跨芯适配、性能优化与版本发布。算子层从大模型专用走向全领域覆盖FlagGems是 FlagOS 核心高性能算子库已拥有 510 算子、原生支持近 20 家 AI 芯片并已进入 PyTorch 基金会生态。针对 vLLM 推理场景推出的FlagGems-vLLM融合算子库已兼容 75 个 vLLM 融合算子DeepSeek V4 算子全覆盖部分算子性能大幅超越原生实现FP8 MatMul 提升 2.47 倍Sparse Attention 提升 1.65 倍Hadamard Transform 提升 1.89 倍。同时FlagGems 新增 6 大领域算子库——FlagDNN、FlagBlas、FlagSparse、FlagFFT、FlagTensor、FlagAudio覆盖科学计算与信号处理场景共计 102 个领域算子从大模型专用走向全领域覆盖。编译层FlagTree 三阶段统一面向 Agent 可编程FlagTree是面向多 AI 芯片的跨芯编译器分三阶段演进① 灵活接入层——已支持 14 家厂商、23 种 AI 芯片Q2 新增阿里达摩院、辉羲智能、ARM 等通过 FlagTree-CPU 首次支持 Arm64② Triton-TLE 语言扩展——让开发者编写高性能算子重点算子在多种芯片上超越原生 C 语言实现如 MoeAlignBlockSize 加速 4.06x、FlashQLA 加速 7.10x、FFT 加速 38.67x 等③ 中间表示 FLIR——首批支持 3 种架构、76 个原语、103 个算子让 Agent 可以在结构化优化空间中高效搜索。Agent 工具链自动生成、自动优化、自动迁移KernelGenAI-Native 算子自动生成工具支持生成一次、自动优化、多芯片运行已支持 7 款芯片的算子自动生成。在 KernelGenBench首个多来源多芯片算子生成评测基准中Level-1/2/3 任务正确率达 74.1%/92.9%/87.8%显著超越其他生成方案。FlagScale AgentAI Infra 领域专用智能体通过 16 领域 Skill 和 12 个运行时 Guard 实现约束驱动的模型迁移、框架升级与精度对齐。在训练任务从英伟达向国产集群的自动迁移中以稳定配置跑满 100 步实现双平台完全收敛final diff 0.12%远超通用 Agent 的表现。FlagRelease自动化模型跨芯迁移与发版平台已实现 10 款芯片上数十个开源模型的版本发布覆盖 HuggingFace 与魔搭社区并提供 Express 优化版本如 Qwen3.6-27B 在沐曦上相对原生性能达 110%。FlagCICD多芯片持续集成与交付平台管理多元芯片的构建、测试与质量验证解决芯片 × 驱动 × SDK 的版本矩阵难题。插件体系多框架、多芯片接入FlagOS 已构建完整的跨芯插件体系覆盖推理、训练、强化学习全场景所有插件遵循零侵入设计原则实现跨芯发行、跨芯接入、跨芯运行时vLLM-Plugin-FL / SGLang-Plugin-FL推理插件已支持华为昇腾、海光、摩尔线程、沐曦、平头哥、天数智芯、昆仑芯、燧原、英伟达等芯片Megatron-LM-FL / TransformerEngine-FL训练插件已与上游核心版本同步PyTorch-Plugin-FL基础框架插件支持 FlagOS 与 Vendor 后端灵活选择VeRL-FL强化学习插件PR 已合入 VeRL 主仓支持多芯片 RL 训练计算架构延伸从云端到端侧从经典到量子FlagTree-CPU首个 Arm64 CPU 后端通过 Triton-TLE 扩展和 NEON/SVE2 指令级优化在 ARM 平台上 RMSNorm 相比 ATen 实现提升 150%、Flash-Attention Decode 提升 9 倍。FlagQuantum首个在量子模拟、可微分编程、硬件无关及多卡扩展四大领域提供原生支持的量智融合框架支持英伟达、海光、摩尔线程等 AI 芯片及夸父、本源、IBM 等真实量子硬件。Part.04开源共建FlagOS 持续做开发者的跨芯适配后盾当下异构算力协同、大模型普惠落地已成为全球开源开发者社区的核心热点打破硬件生态隔离、让大模型在不同算力平台高效低成本运行是无数开发者的核心诉求。FlagOS 从诞生之初就将开源开放、众智共建刻入技术基因始终以开发者为中心通过全栈开源的跨芯系统软件栈把复杂的M×N硬件适配问题降维为MN做每一位开发者最可靠的跨芯适配后盾。全栈开源无保留把技术主动权交给开发者目前FlagOS 已形成完整的开源技术体系所有核心组件均已开源在 GitHub同时开放了数十款最新的主流基础大模型、十多款 AI 芯片的适配方案与最佳实践开发者可自由获取、深度定制核心基础软件FlagGems 通用大模型算子库、FlagTree 跨芯 AI 编译器、FlagScale 训练推理并行框架、FlagCX 跨芯通信库覆盖算子开发、编译优化、并行计算、跨芯片通信全链路跨芯插件体系vLLM-Plugin-FL、SGLang-Plugin-FL、Megatron-LM-FL、TransformerEngine-FL、PyTorch-Plugin-FL、VeRL-FL覆盖推理、训练、强化学习全场景AI Agent 时代工具KernelGen 算子自动生成工具、FlagScale Agent 领域专用智能体、FlagRelease 自动迁移发版平台以及 FlagOS Skills10 种技能覆盖模型适配、算子生成、性能调优等场景多路径参与共建全层级开发者均可入局我们为不同技术方向、不同经验层级的开发者设计了低门槛、多路径的共建方式无论你是 AI 开发新手还是深耕系统软件的资深专家都能在 FlagOS 社区找到自己的位置。新手友好型参与可在对应仓库提交 Issue 反馈 bug、优化建议或是补充完善文档、撰写入门教程与最佳实践深度技术共建开发者可直接参与 FlagGems 算子开发与优化新增算子 / 性能调优 / 新芯片后端支持、FlagTree 编译器后端扩展等核心模块生态工具贡献开发者可基于 FlagOS Skills 开发面向国产芯片的 AI Agent 专业技能帮助更多开发者通过自然语言完成芯片适配、模型部署等操作