CPU需求激增之一:训练和推理差异

📅 2026/6/30 1:12:55

CPU需求激增之一:训练和推理差异https://mp.weixin.qq.com/s/nRxjlS7s-tQSv0auD2el8A从以下大概的训练和推理的过程对比可以很清晰地看出训练阶段GPU承担了最为繁重计算和优化工作而在推理阶段此部分工作不在存在反倒是CPU承接了大量的调用负责请求处理、调度、数据搬移以及序列化输出。一、大模型训练训练数据预处理 —— CPU 工作对原始语料执行清洗、去重、分词 Token 化、序列截断 / 填充、样本打包生成标准化训练数据集文件。全程为文本处理与磁盘 IO 操作由 CPU 完成。分布式训练环境初始化 —— CPU 主导GPU 配合 CPU 启动多机多卡训练进程初始化分布式通信组如 NCCL、配置训练超参、加载模型结构定义GPU 完成硬件自检与通信链路建链。模型与优化器部署 —— CPU→GPU CPU 侧完成模型权重初始化或加载预训练权重、优化器实例化随后将所有权重与状态数据拷贝到各 GPU 显存中完成计算资源就位。批次数据加载与前处理 —— CPU 工作 CPU 侧的数据加载线程DataLoader读取训练样本执行打乱、组 Batch、生成注意力掩码 / 位置编码等操作将批次张量准备至页锁定内存待传输至 GPU。前向传播计算 —— GPU 工作批次数据传入 GPU 显存后GPU 并行执行完整前向计算依次完成注意力层、FFN 层、归一化层的张量运算最终输出预测结果与损失值。反向传播与梯度计算 —— GPU 工作基于损失值GPU 通过链式法则执行反向传播从输出层向输入层逐层计算每个模型参数的梯度梯度结果暂存于 GPU 显存。多卡梯度同步规约 —— GPU 主导CPU 调度分布式训练场景下各 GPU 通过 NCCL 执行 AllReduce 操作直接在 GPU 间完成梯度全局平均同步CPU 仅触发调度不参与梯度数据计算与搬运。优化器更新参数 —— GPU 工作 GPU 依据同步后的全局梯度通过优化器算法如 AdamW更新模型权重同时更新优化器自身状态变量动量、二阶矩等完成一轮参数迭代。9. 训练状态监控与调度 —— CPU 工作 GPU 定期将损失、梯度范数等指标回传 CPUCPU 负责日志输出、学习率更新、步数计数判断是否触发验证、Checkpoint 保存或训练终止。10. 模型 Checkpoint 持久化 —— CPU 主导GPU 配合触发保存时GPU 将当前模型权重、优化器状态回传至 CPU 内存CPU 完成数据序列化并写入磁盘保存训练快照。11.验证集效果评估 —— CPU 调度GPU 计算 CPU 调度验证流程送入验证数据GPU 在推理模式下完成验证集前向计算将困惑度等评估指标回传 CPU由 CPU 判断模型收敛情况。12.训练收尾与资源释放 —— CPU 工作训练达标后CPU 下发终止指令GPU 清空显存CPU 完成最终模型导出、日志归档关闭分布式环境与训练进程。补充说明其中第 4~8 步为一个完整训练迭代Step会循环执行成千上万次是大模型训练的核心循环。二大模型推理客户端发送请求 → CPU 接收、解析协议、校验参数放入请求队列CPU 调度器攒批动态 / 连续批处理将原始数据送入前处理模块前处理完成后CPU 通过 DMA 将张量数据拷贝到 GPU 显存CPU 提交推理任务GPU 启动轻量化融合内核执行前向计算计算完成后GPU 侧执行后处理如 NMS、TopK或回传至 CPU 处理CPU 将最终结果序列化返回给客户端海量的推理请求特别是大量Agent以远超人类调用速度来调用给CPU带来巨大的业务压力。

新闻详情

相关阅读

VMware安装华为存储仿真器eStor实操

3分钟快速上手：让你的网易云音乐变得更强大

效率直接起飞！高效论文写作全流程一键生成论文工具推荐（2026 最新）

badbadguyisland

ChineseSubFinder：如何实现全自动中文字幕智能匹配？

LLM 幻觉怎么来的？AI 查了三遍代码，戳穿了我的记忆幻觉

2026年不花一分钱搞定毕业论文降AI：8个免费方法把知网AI率压到3%以下（亲测）

基于51单片机花样流水灯—加音乐播放

Google Play大改版，AI全面进入 ，游戏出海的商店逻辑全变了

AScript异步执行与await关键字

如何在1分钟内为Windows安装苹果USB网络共享驱动：完整解决方案

NoFences：你的Windows桌面需要一场空间革命吗？

管理者的六个层次

华为OD机试2025C卷-座位调整[100分]（ Java _ Python3 _ C++ _ C语言 _ JsNode _ Go）实现100%通过率

CrabCode v1.0.7与v1.0.8 更新速览！

Google Play大改版，AI全面进入，游戏出海的商店逻辑全变了