第21章：并行策略：TP、PP、DP 与专家并行

📅 2026/6/18 8:25:29

1. 项目背景某AI平台团队成功将一个7B模型在单张A100上跑通后，CTO提出了更高的要求：部署公司自研的70B模型，并支撑日均100万次调用。团队采购了8台A100服务器（每台8卡），总计64张GPU——硬件投入超过200万元。然而，当团队用--tensor-parallel-size 8启动70B模型时，发现吞吐远低于预期。8卡TP的理论吞吐应该是单卡的8倍，但实测只有3.2倍。更奇怪的是，当把模式改为"2卡TP + 4实例DP"时，8张卡的吞吐反而翻了一倍——比全卡TP高出近100%。与此同时，隔壁团队部署的一个MoE（Mixture of Experts）模型遇到了更诡异的问题：8张GPU中，有3张的利用率在90%以上，另外5张只有20%——GPU负载严重不均衡。排查发现，MoE模型中的某些"热门专家"被过度调用，而其他专家几乎闲置。痛点：并行策略不是"给更多的GPU就能跑得更快"。TP（张量并行）切分模型权重到多卡，通信开销随卡数增长；PP（流水线并行）切分模型层到多卡，存在"气泡"浪费；DP（数据并行）复制模型到多卡，各实例独立但需要负载均衡。盲目堆GPU而不理解各并行策略的通信模式、适用边界和性能收益曲线，是烧钱最快的方式。本章将逐一拆解TP/PP/DP/EP四种并行策略的数学本质、通信开销和适用场景，并通过"2卡TP vs 4实例DP"的对比实验，展示"为什么更多GPU有时反而更慢"。2. 项目设计（场景：GPU服务器机房。小胖盯着一排A100的功耗指示灯——8张卡都在闪

新闻详情

相关阅读

优质GAN模型专栏目录

Cocos Engine跨平台架构深度解析：从JavaScript绑定到原生性能优化的完整指南

基于SONiC-P4的软件定义网络实验：从零构建可编程交换机管理平台

DeepSeek V4实战指南：低成本高稳定大模型推理部署

GPT-4o实战指南：多模态AI在企业级应用中的真实落地路径

【招聘】候选人说「我现在不考虑」，你该怎么办

JMeter性能测试环境清理：tearDown线程组实战指南与方案对比

Nuclear：构建下一代开源音乐播放器的插件化架构实践

如何用Kavita打造个人漫画图书馆：3种移动端访问方案全解析

JN517x嵌入式开发实战：看门狗、脉冲计数器与I2C接口的深度解析与避坑指南

Java毕设选题推荐：基于 Spring Boot 的个人随笔博客运维管理系统的设计与实现 基于 Spring Boot 的用户原创博客分享社区【附源码、mysql、文档、调试+代码讲解+全bao等】

ZigBee HA智能家居开发实战：从集群模型到NXP JN516x代码实现

Java毕设选题推荐：基于 Spring Boot 的个人随笔博客运维管理系统的设计与实现基于 Spring Boot 的用户原创博客分享社区【附源码、mysql、文档、调试+代码讲解+全bao等】