张伟专业团队_网站制作案例哪家强_信息流广告文案_seo指的是什么

时间:2025/8/30 3:06:32来源：https://blog.csdn.net/weixin_43891901/article/details/145661504 浏览次数: 0次

文章目录

- 什么是大模型
- 大模型训练
- - 预训练
  - 监督微调SFT
  - RLHF基于人类反馈的强化学习
- 大模型分类
- - 大语言模型-LLM
  - 多模态模型-VLM
  - - 视觉模型
    - 音频模型
- 大模型工作流程
- - 分词化与词表映射
  - 大模型回答过程 & 基于token的概率预测
- Agent导论
- - 子任务拆分

什么是大模型

大模型就是训练的一个能跟你对话、交互的智能模型。大：指的是训练这个模型用的参数比较大。模型：指的是神经网络模型。

你刚出生的时候如果能够穿越时空遇到80岁的你自己，那么80岁的你自己就是一个大模型。它经历比你丰富，脑子接收了几十年的训练参数。它比你智能，而你是个傻白甜。站在你刚出生的视角，你跟他对话，你就发现他无所不能。

大模型训练

大模型训练分为三个阶段：

预训练
SFT（监督微调）
RLHF（基于人类反馈的强化学习）

预训练

预训练就是监督学习，就是你从3岁上学上到20岁，由学校和老师监督你一样。你就跟个基座大模型一样，什么都学，语数英物化等等知识都被你吸收了，目的是训练你的通用能力。在这个阶段，你啥都懂点，但是你不专，你就跟基座大模型一样，啥都懂点，问深了胡说八道了。

这个阶段肯定是必不可少的，这是训练你的一些基础的学习能力，这个代表你的底层基础能力。

这个阶段你学到的就是：

造句
成语接龙
算术与基本逻辑

在这个阶段，大模型用到的框架是：transformer

监督微调SFT

你高考完了，上了大学就要选专业了。你终于不用像中学那样跟个傻子一样什么学科都学了，啥都学，学不精还要卷分数。你到了大学就要精修某个专业，学好这个专业你毕业以后就进入到对应的工作岗位了。大学、以及大学老师就会在你学习本专业的时候对你进行指导，这个就叫监督微调。他们不会像中学老师那样押着你学，他们只希望你别挂科，适当指导你，所以这叫：微调。

我们在预训练说了，你在具备通用知识的情况下，得接受专业知识训练，得接受正确价值观的引导。这也是你读大学的意义。

你学了那么多知识，但是不是什么话都能乱讲的，得符合社会主义核心价值观！这也是监督微调的意义。

RLHF基于人类反馈的强化学习

你走上工作岗位以后，你总得和同事合作打交道把？总得和领导汇报工作吧？这种能力学校没交，但是你现在到了公司新环境以后你就得学了，你现在面对这种新环境、新知识，当你去适应、学习的时候，就是一个调整自己的过程。大脑以前也没遇到这种新知识，因为学校不是万能的，所以你得不断根据环境反馈、同事朋友的反馈不断学习适应。

在这个阶段，你步入了工作岗位，可能被客户、领导骂，你根据现实情况调节自身去适应，这就是一个反馈强化学习的过程。