3-4 优化器和学习率

时间:2025/7/9 1:26:36来源：https://blog.csdn.net/weixin_62115482/article/details/140245435 浏览次数:0次

3-4 优化器和学习率

主目录点这里

在这里插入图片描述
优化器是机器学习和深度学习模型训练过程中用于调整模型参数的方法。它的主要目标是通过最小化损失函数来找到模型参数的最优值，从而提升模型的性能。

在深度学习中，优化器使用反向传播算法计算损失函数相对于模型参数的梯度，并根据这些梯度来更新模型参数。不同的优化器方法在更新参数时使用了不同的策略和技巧。

以下是几种常见的优化器以及它们的实现代码示例：

1. 梯度下降（Gradient Descent）

梯度下降是最基本的优化算法。它通过计算损失函数相对于模型参数的梯度，然后按一个学习率（步长）更新参数。

import numpy as np# 假设我们有一个简单的二次函数：f(x) = x^2
# 其导数是：f'(x) = 2x
def gradient_descent(learning_rate, iterations):x = 10  # 初始化值for i in range(iterations):gradient = 2 * x  # 计算梯度x = x - learning_rate * gradient  # 更新参数print(f"Iteration {i+1}: x = {x}, f(x) = {x**2}")# 运行梯度下降
gradient_descent(learning_rate=0.1, iterations=10)

在这里插入图片描述

2. 随机梯度下降（Stochastic Gradient Descent, SGD）

SGD 是一种变体，它在每次更新时使用单个样本（或小批量样本）来计算梯度，而不是整个数据集。这种方法可以使优化过程更快，更适用于大规模数据集。

import numpy as np# 假设我们有一个数据集和一个简单的线性模型
X = np.array([1, 2, 3, 4])
y = np.array([2, 4, 6, 8])
weights = 0.0
bias = 0.0def stochastic_gradient_descent(X, y, learning_rate, iterations):global weights, biasfor i in range(iterations):for j in range(len(X)):prediction = weights * X[j] + biaserror = prediction - y[j]weights = weights - learning_rate * error * X[j]bias = bias - learning_rate * errorprint(f"Iteration {i+1}, Sample {j+1}: weights = {weights}, bias = {bias}")# 运行随机梯度下降
stochastic_gradient_descent(X, y, learning_rate=0.01, iterations=10)

在这里插入图片描述

3. 动量梯度下降（Momentum）

动量方法在梯度更新过程中加入了前几次更新的方向，避免陷入局部最小值，提升收敛速度。

def momentum_gradient_descent(learning_rate, iterations, momentum=0.9):x = 10  # 初始化值v = 0  # 初始速度for i in range(iterations):gradient = 2 * x  # 计算梯度v = momentum * v - learning_rate * gradient  # 更新速度x = x + v  # 更新参数print(f"Iteration {i+1}: x = {x}, f(x) = {x**2}")# 运行动量梯度下降
momentum_gradient_descent(learning_rate=0.1, iterations=10)

在这里插入图片描述

4. AdaGrad

AdaGrad 通过对梯度的平方和进行调整，使得参数的学习率随着训练的进行而自动减小。这对于稀疏数据特别有用。

def adagrad(learning_rate, iterations):x = 10  # 初始化值cache = 0  # 累积的平方梯度epsilon = 1e-8  # 防止除零for i in range(iterations):gradient = 2 * x  # 计算梯度cache += gradient**2  # 累积平方梯度x = x - (learning_rate / (np.sqrt(cache) + epsilon)) * gradient  # 更新参数print(f"Iteration {i+1}: x = {x}, f(x) = {x**2}")# 运行 AdaGrad
adagrad(learning_rate=1.0, iterations=10)

在这里插入图片描述

5. RMSProp

RMSProp 是 AdaGrad 的改进版，它使用滑动平均值来计算平方梯度的加权平均，以避免学习率衰减过快。

def rmsprop(learning_rate, iterations, decay_rate=0.9):x = 10  # 初始化值cache = 0  # 累积的平方梯度epsilon = 1e-8  # 防止除零for i in range(iterations):gradient = 2 * x  # 计算梯度cache = decay_rate * cache + (1 - decay_rate) * gradient**2  # 计算加权平均x = x - (learning_rate / (np.sqrt(cache) + epsilon)) * gradient  # 更新参数print(f"Iteration {i+1}: x = {x}, f(x) = {x**2}")# 运行 RMSProp
rmsprop(learning_rate=0.1, iterations=10)

在这里插入图片描述

6. Adam

Adam（Adaptive Moment Estimation）结合了动量和 RMSProp 的优点，计算出每个参数的自适应学习率。

def adam(learning_rate, iterations, beta1=0.9, beta2=0.999):x = 10  # 初始化值m, v = 0, 0  # 初始化一阶和二阶动量epsilon = 1e-8  # 防止除零for i in range(iterations):gradient = 2 * x  # 计算梯度m = beta1 * m + (1 - beta1) * gradient  # 更新一阶动量v = beta2 * v + (1 - beta2) * gradient**2  # 更新二阶动量m_hat = m / (1 - beta1**(i + 1))  # 计算偏差修正后的一阶动量v_hat = v / (1 - beta2**(i + 1))  # 计算偏差修正后的二阶动量x = x - (learning_rate / (np.sqrt(v_hat) + epsilon)) * m_hat  # 更新参数print(f"Iteration {i+1}: x = {x}, f(x) = {x**2}")# 运行 Adam
adam(learning_rate=0.1, iterations=10)

在这里插入图片描述

关键字：3-4 优化器和学习率

本网仅为发布的内容提供存储空间，不对发表、转载的内容提供任何形式的保证。凡本网注明“来源：XXX网络”的作品，均转载自其它媒体，著作权归作者所有，商业转载请联系作者获得授权，非商业转载请注明出处。

我们尊重并感谢每一位作者，均已注明文章来源和作者。如因作品内容、版权或其它问题，请及时与我们联系，联系邮箱：809451989@qq.com，投稿邮箱：809451989@qq.com

责任编辑：