大模型学习率

📅 2026/7/6 1:26:54
大模型学习率
大模型的学习率Learning Rate是控制模型参数更新‌步长‌的核心超参数直接决定训练能否收敛及最终性能 。核心定义‌本质‌在梯度下降优化中梯度指出“往哪改”学习率决定“改多少”。公式为新参数 旧参数 - 学习率 × 梯度。‌属性‌它是人为设定的‌超参数‌而非模型从数据中学到的权重参数 。关键影响‌过大‌步长太大导致损失函数剧烈震荡甚至发散Loss 爆炸无法找到最优解 。‌过小‌步长太小收敛极慢浪费算力且易陷入局部最优解 。‌适中‌平衡速度与稳定性使模型高效逼近全局最优 。大模型典型范围大模型参数量巨大对步长极度敏感学习率通常远小于小模型‌大型基座模型7B~72B‌常用 ‌1e-5 ~ 1e-6‌ 。‌中型模型1B~7B‌常用 ‌1e-4 ~ 1e-5‌ 。‌微调场景‌常采用 ‌2e-5‌ 左右并配合 Warmup 和余弦退火等动态调度策略 。简言之学习率是大模型训练的“油门”需根据模型规模和任务动态调整过大易失控过小则低效 。其中1e-5是‌科学计数法的数值表达‌核心概念如下‌基础数值含义‌它换算为普通小数是 ‌0.00001‌也就是十万分之一。‌大模型训练场景意义‌在大模型微调中1e-5是大型模型参数规模1B全量微调的经典推荐学习率能避免破坏预训练好的权重让训练过程稳定收敛不会出现梯度震荡或Loss异常的问题。‌其他常见使用场景‌它也常作为深度学习、编程中的精度阈值比如在C语言、Python的数值计算里用来判断两个浮点数是否近似相等控制计算的精度误差。