gpustat——显存GPU利用率查看小工具

📅 2026/7/2 8:35:11
gpustat——显存GPU利用率查看小工具
nvidia-smi命令行最基础nvidia-smi显示 GPU 利用率Volatile GPU-Util、显存占用、温度、功率等。实时刷新watch -n 1 nvidia-smiLinux或nvidia-smi -l 1每秒刷新。缺点利用率有时不准确在显存拷贝和 kernel 执行之间可能显示偏低。gpustat更美观类似 nvidia-smi 的彩色版pipinstallgpustat gpustat-i1# 每秒刷新显示每个进程的 GPU 利用率、显存、用户、命令。安装gpustat后使用方法非常简单基本用法直接在终端运行gpustat这会显示当前 GPU 的状态利用率、显存、温度、进程等只刷新一次。常用选项实时监控gpustat-i1# 每秒刷新一次持续监控按 CtrlC 退出gpustat--color# 强制彩色输出默认自动gpustat-p# 显示进程的 PID 和命令名gpustat-c# 显示 GPU 利用率的历史图表需要 --watch 或 -igpustat-u# 显示每个进程的 GPU 利用率需要 root 或 sudo实用示例场景命令一次查看当前状态gpustat每秒刷新持续观察训练时的 GPU 波动gpustat -i 1显示更详细的进程信息PID、用户名gpustat -p每 0.5 秒刷新带彩色和进程详情gpustat -i 0.5 -p结合你之前的训练问题当你运行训练脚本时在另一个终端窗口执行gpustat-i0.5-p观察纯 Teacher Forcing 阶段GPU-Util应稳定在 90%每个 batch 处理时间较短。引入 Free Running 后GPU-Util可能仍很高但你会看到进程的显存占用稳定而刷新频率显示 GPU 在短时间内频繁启动/结束小 kernel说明串行循环在消耗资源。如果发现利用率低于 80% 且训练很慢说明数据加载或串行循环导致 GPU 空闲等待如果利用率 99% 但每个 batch 耗时很长说明计算量本身大需优化算法并行计划采样。提示如果gpustat命令找不到可能是 Python 脚本目录未加入 PATH可以尝试python -m gpustat或找到安装位置通常在~/.local/bin/或C:\Users\用户名\AppData\Roaming\Python\Scripts\。