CPU需求激增之一:训练和推理差异 📅 2026/6/30 1:12:55 CPU需求激增之一:训练和推理差异https://mp.weixin.qq.com/s/nRxjlS7s-tQSv0auD2el8A从以下大概的训练和推理的过程对比可以很清晰地看出训练阶段GPU承担了最为繁重计算和优化工作而在推理阶段此部分工作不在存在反倒是CPU承接了大量的调用负责请求处理、调度、数据搬移以及序列化输出。一、大模型训练训练数据预处理 —— CPU 工作 对原始语料执行清洗、去重、分词 Token 化、序列截断 / 填充、样本打包生成标准化训练数据集文件。全程为文本处理与磁盘 IO 操作由 CPU 完成。分布式训练环境初始化 —— CPU 主导GPU 配合 CPU 启动多机多卡训练进程初始化分布式通信组如 NCCL、配置训练超参、加载模型结构定义GPU 完成硬件自检与通信链路建链。模型与优化器部署 —— CPU→GPU CPU 侧完成模型权重初始化或加载预训练权重、优化器实例化随后将所有权重与状态数据拷贝到各 GPU 显存中完成计算资源就位。批次数据加载与前处理 —— CPU 工作 CPU 侧的数据加载线程DataLoader读取训练样本执行打乱、组 Batch、生成注意力掩码 / 位置编码等操作将批次张量准备至页锁定内存待传输至 GPU。前向传播计算 —— GPU 工作 批次数据传入 GPU 显存后GPU 并行执行完整前向计算依次完成注意力层、FFN 层、归一化层的张量运算最终输出预测结果与损失值。反向传播与梯度计算 —— GPU 工作 基于损失值GPU 通过链式法则执行反向传播从输出层向输入层逐层计算每个模型参数的梯度梯度结果暂存于 GPU 显存。多卡梯度同步规约 —— GPU 主导CPU 调度 分布式训练场景下各 GPU 通过 NCCL 执行 AllReduce 操作直接在 GPU 间完成梯度全局平均同步CPU 仅触发调度不参与梯度数据计算与搬运。优化器更新参数 —— GPU 工作 GPU 依据同步后的全局梯度通过优化器算法如 AdamW更新模型权重同时更新优化器自身状态变量动量、二阶矩等完成一轮参数迭代。9. 训练状态监控与调度 —— CPU 工作 GPU 定期将损失、梯度范数等指标回传 CPUCPU 负责日志输出、学习率更新、步数计数判断是否触发验证、Checkpoint 保存或训练终止。10. 模型 Checkpoint 持久化 —— CPU 主导GPU 配合 触发保存时GPU 将当前模型权重、优化器状态回传至 CPU 内存CPU 完成数据序列化并写入磁盘保存训练快照。11.验证集效果评估 —— CPU 调度GPU 计算 CPU 调度验证流程送入验证数据GPU 在推理模式下完成验证集前向计算将困惑度等评估指标回传 CPU由 CPU 判断模型收敛情况。12.训练收尾与资源释放 —— CPU 工作 训练达标后CPU 下发终止指令GPU 清空显存CPU 完成最终模型导出、日志归档关闭分布式环境与训练进程。补充说明其中第 4~8 步为一个完整训练迭代Step会循环执行成千上万次是大模型训练的核心循环。二 大模型推理客户端发送请求 → CPU 接收、解析协议、校验参数放入请求队列CPU 调度器攒批动态 / 连续批处理将原始数据送入前处理模块前处理完成后CPU 通过 DMA 将张量数据拷贝到 GPU 显存CPU 提交推理任务GPU 启动轻量化融合内核执行前向计算计算完成后GPU 侧执行后处理如 NMS、TopK或回传至 CPU 处理CPU 将最终结果序列化返回给客户端海量的推理请求特别是大量Agent以远超人类调用速度来调用给CPU带来巨大的业务压力。