当前位置: 首页> 教育> 就业 > 安徽省建设厅官网_如何做网站宣传自己_北京seo推广系统_外贸平台有哪些比较好

安徽省建设厅官网_如何做网站宣传自己_北京seo推广系统_外贸平台有哪些比较好

时间:2025/7/20 20:08:34来源:https://blog.csdn.net/qq_43318374/article/details/146083224 浏览次数:0次
安徽省建设厅官网_如何做网站宣传自己_北京seo推广系统_外贸平台有哪些比较好

一 背景

1.随着大模型的发展,模型的参数越来越大,有的参数是十亿乃至千亿,如此大的参数,我们要进行微调,是比较困难。原因如果我们训练时候添加我们自己场景的数据后,模型原有的能力会变的很差,如果想保留原来的能力,训练也很困难。所以大佬们提出了一个方法 LoRA,可以满足原来的能力,又可以比较简单的进行微调。

二 原理

1.数学知识

回顾一下数学知识,什么是秩,矩阵秩分为行秩,列秩,行秩表示矩阵的线性无关的行的个数,列同理。在机器学习中,我们使用一个全连接,我们计算这个矩阵的秩,就能确定那些特征是重要的。我们可以用一个低维度近似表示高维度的矩阵。我们可以在原始的矩阵空间中,使用少数的维度组合,就能捕捉大部分信息。
数学公式 : h = W0x + ∆W x = W0x + BAx
公式中,W0表示预训练模型参数,X表示输入数据。∆W表示新的权重,我们需要训练的。新的权重我们可以拆分为两个矩阵A和B,为啥要拆分为两个矩阵了,原因是减少参数,一个为升维矩阵,一个降维矩阵。

2.算法流程

当我们微调时候,我们不更新预训练权重,我们去更新∆W,然后把∆W更新好的权重直接和原始预训练权重相加。在推理时候,不会参数额外延时。
在这里插入图片描述

3举例说明

假设我们预训练权重大小是 1000 * 1000 的矩阵,我们的A矩阵可以是1000 * 4, B矩阵可以是4 * 1000 ,根据矩阵的乘法A*B最终的矩阵大小是 1000 * 1000 ,然后和原始的矩阵相加。就这样完成了我们微调,思想就是这样的。

三 代码复现

import numpy as np
import torch
import mathinput_dim  = 1000
output_dim = 1000rank = 4W = torch.randn(input_dim, output_dim)
W_A = torch.nn.Parameter(torch.empty(input_dim, rank))
W_B = torch.nn.Parameter(torch.empty(rank, input_dim))W_A = torch.nn.init.kaiming_uniform(W_A, a=math.sqrt(5))
W_B = torch.nn.init.zeros_(W_B)def lora_forward(x, W, W_A, W_B):h = x @ Wh += x @ (W_A @ W_B) * alphareturn h

其中W_B初始化为0,是因为刚开始,不想变化太大,应该一步一来,W_A初始化为高斯分布,比较好收敛。

关键字:安徽省建设厅官网_如何做网站宣传自己_北京seo推广系统_外贸平台有哪些比较好

版权声明:

本网仅为发布的内容提供存储空间,不对发表、转载的内容提供任何形式的保证。凡本网注明“来源:XXX网络”的作品,均转载自其它媒体,著作权归作者所有,商业转载请联系作者获得授权,非商业转载请注明出处。

我们尊重并感谢每一位作者,均已注明文章来源和作者。如因作品内容、版权或其它问题,请及时与我们联系,联系邮箱:809451989@qq.com,投稿邮箱:809451989@qq.com

责任编辑: