海光异构卡dcu 64BW *2 ZeRO-2 异构卡2 16g*4 zero-3微调deepseekf1-qwen2-14b模型速度对比
海光异构卡dcu 64BW 2 ZeRO-2 异构卡2 16g4 zero-3微调deepseekf1-qwen2-14b模型速度对比
说明 16g*4 zero-3 没有办法启用flash-attention,报错
https://www.scnet.cn/
From 国家超算中心_code/deepseed加速.md:
初始速度 (bs2, 无ZeRO-2优化): ~17 s/it (line 476)启用FA2后…
2026/6/17 2:16:21