梯度下降法数学理解

📅 2026/6/16 3:48:58

1、数学梯度下降法目标求函数 f(x)x2的最小值。我们知道最小值在 x0 处但梯度下降法不需要知道这个它会自己找到。步骤初始位置随便取 x4学习率步长η0.1梯度f′(x)2x。梯度的反方向就是 −2x更新公式xnewx−η⋅f′(x)x−0.1×(2x)x−0.2x0.8x迭代过程第0步x4第1步x0.8×43.2第2步x0.8×3.22.56第3步x0.8×2.562.048第4步x1.638第5步x1.310第6步x1.048第7步x0.838第8步x0.671……第n步x 逐渐逼近 0结论梯度下降法每次沿着“负梯度方向”更新 x使函数值 f(x)x2不断下降最终收敛到最小值点 x0。2、神经网络中使用梯度下降法整个过程可以拆成 4 步1. 定义损失函数假设一个神经网络做分类任务最后一层输出预测值 y^真实标签是 y。定义一个损失函数 LL比如交叉熵损失或均方误差用来衡量预测与真实之间的差距。目标找到网络中的所有权重 W 和偏置 b使 LL最小。2. 前向传播Forward输入一个 batch 的样本数据从输入层依次经过各层线性变换激活函数一直传到输出层得到预测值 y^。同时每一层的中间结果激活值、加权和需要保存下来供后面反向传播使用。实际训练中的循环整个流程是迭代的Repeat:随机取一个 mini-batch 的数据前向传播计算损失反向传播计算每个参数的梯度用梯度下降或其变体如SGD、Adam更新参数Until损失收敛或达到指定迭代次数总结模型先随机给定w值和b值然后让模型能得到一个预测值然后用1/2y*-y*(y*-y),得到损失。然后连用链式求导法逐渐反推出w值和b值。不断地训练模型不断地更新w和b直到损失趋于平稳把模型放到验证集上去验证模型的泛化能力。然后判断是否需要减小或者增大学习率来再次对模型进行训练。3、损失曲线看模型训练结果现象可能原因是否正常损失下降过早平坦如第 2 个 epoch 就平坦且最终损失值仍然很高学习率过小、模型欠拟合容量不足、特征预处理不当不正常需要调整平坦后突然再次下降阶梯状优化器跳出局部极小值如 SGD with momentum正常但需关注是否收敛平坦后持续轻微上升过拟合验证集上更明显、学习率过大导致震荡不正常需正则化或降低学习率损失平坦但验证损失远高于训练损失过拟合不正常参考链接梯度下降法

新闻详情

相关阅读

yolo模型微调训练

计算机Java毕设实战-基于 Web 的足球赛事点评与社区交流平台研发足球赛事资源整合与社区互动平台设计与实践【完整源码+LW+部署说明+演示视频，全bao一条龙等】

丙午年五月初二苦乐渡

LVGL图片显示配置全解析：从C数组到文件系统的嵌入式GUI实战

AI+Python驱动的高光谱遥感全链路解析与典型案例

RuoYi-Vue：42k Star 的 Java 快速开发框架，别再从零搭后台了

AI大模型到底是什么：从认知原理到零代码落地指南

3分钟学会FancyZones：让Windows窗口管理变得像拼积木一样简单

Windows 11硬件限制绕过完整方案深度解析

MPC866 SMC串口控制器：UART、透明、GCI模式配置与调试实战

3步彻底移除Windows Defender：终极Windows Defender Remover使用指南

MPC866串行接口与DMA配置实战：TSA路由与SDMA缓冲区管理详解