moe all2all通信模式流程
场景设定
8 张 GPU,每张 GPU 上 1 个 Expert(Expert 0 在 GPU 0,Expert 1 在 GPU 1...)
当前 GPU 0 上有 4 个 token,每个 token 选 top-2 专家假设 GPU 0 上 Router 的结果是: Token 选的专家 目标 GPU Token A Expert 0, Expert 3 GPU 0, GPU 3 Token B Expert 1, Exp…
2026/6/28 2:22:28