文章目录
- 什么是大模型
- 大模型训练
- 预训练
- 监督微调SFT
- RLHF基于人类反馈的强化学习
- 大模型分类
- 大语言模型-LLM
- 多模态模型-VLM
- 视觉模型
- 音频模型
- 大模型工作流程
- 分词化与词表映射
- 大模型回答过程 & 基于token的概率预测
- Agent导论
- 子任务拆分
什么是大模型
大模型就是训练的一个能跟你对话、交互的智能模型。大:指的是训练这个模型用的参数比较大。模型:指的是神经网络模型。
你刚出生的时候如果能够穿越时空遇到80岁的你自己,那么80岁的你自己就是一个大模型。它经历比你丰富,脑子接收了几十年的训练参数。它比你智能,而你是个傻白甜。站在你刚出生的视角,你跟他对话,你就发现他无所不能。
大模型训练
大模型训练分为三个阶段:
- 预训练
- SFT(监督微调)
- RLHF(基于人类反馈的强化学习)
预训练
预训练就是监督学习,就是你从3岁上学上到20岁,由学校和老师监督你一样。你就跟个基座大模型一样,什么都学,语数英物化等等知识都被你吸收了,目的是训练你的通用能力。在这个阶段,你啥都懂点,但是你不专,你就跟基座大模型一样,啥都懂点,问深了胡说八道了。
这个阶段肯定是必不可少的,这是训练你的一些基础的学习能力,这个代表你的底层基础能力。
这个阶段你学到的就是:
- 造句
- 成语接龙
- 算术与基本逻辑
在这个阶段,大模型用到的框架是:transformer
监督微调SFT
你高考完了,上了大学就要选专业了。你终于不用像中学那样跟个傻子一样什么学科都学了,啥都学,学不精还要卷分数。你到了大学就要精修某个专业,学好这个专业你毕业以后就进入到对应的工作岗位了。大学、以及大学老师就会在你学习本专业的时候对你进行指导,这个就叫监督微调。他们不会像中学老师那样押着你学,他们只希望你别挂科,适当指导你,所以这叫:微调。
我们在预训练说了,你在具备通用知识的情况下,得接受专业知识训练,得接受正确价值观的引导。这也是你读大学的意义。
你学了那么多知识,但是不是什么话都能乱讲的,得符合社会主义核心价值观!这也是监督微调的意义。
RLHF基于人类反馈的强化学习
你走上工作岗位以后,你总得和同事合作打交道把?总得和领导汇报工作吧?这种能力学校没交,但是你现在到了公司新环境以后你就得学了,你现在面对这种新环境、新知识,当你去适应、学习的时候,就是一个调整自己的过程。大脑以前也没遇到这种新知识,因为学校不是万能的,所以你得不断根据环境反馈、同事朋友的反馈不断学习适应。
在这个阶段,你步入了工作岗位,可能被客户、领导骂,你根据现实情况调节自身去适应,这就是一个反馈强化学习的过程。
大模型分类
大模型的分类可以分为:
- 大语言模型
- 多模态模型
- 视觉模型
- 音频模型
- …
大语言模型-LLM
你们之间通过文本交互,文字交互。咬文嚼字的能力。
多模态模型-VLM
视觉、音频交互。除了针对你的嘴巴能力,其他器官的感知能力。
视觉模型
这是针对视觉领域的。类似于千里眼。
音频模型
这是针对音频领域的。类似于顺风耳。
多模态模型其实比大语言模型难很多。
大模型工作流程
大模型工作分为 分词化和 问答。
分词化与词表映射
把一个句子划分成独立的一段段喂给计算机,计算机能够明白这个句子想表达啥。
你小时候学句子咋学的?不就是从造句开始的吗。从一个词语、一个短语开始学的。你的大脑自动帮你分词了。你分词效果不好,你的理解能力、推理能力都会受影响。老师问你问题,你就阿巴阿巴阿巴。
一个句子分词完成以后得部分我们叫做:token。
token拿到词表映射里去找对应的答案!
大模型回答过程 & 基于token的概率预测
大语言模型在给我们答案的时候,其实就是不断生成token的同时再去预测下一个token,把概率值大的token作为新一轮的答案放到列表中,这个过程叫做流式输出。这个过程的底层原理其实是基于自回归模型来做的。
目前主流的神经机器翻译模型为自回归模型,每一步的译文单词的生成都依赖于之前的翻译结果。
大模型回答你的答案的时候不会一下子给你100个字的答案,因为它就不是一开始就把答案生成完给你的。它回答你问题的时候采用的是流式输出。其实类似于一种一边思考一边回答你问题的感觉。并不是一下子塞给你一个一大堆文字的答案。
Agent导论
其实关于这个Agent的概念我的文章之前讲过,大家移步下面这篇文章:
- 《LLM大语言模型深度探索与实践:构建智能应用的新范式,融合代理与数据库的高级整合》
子任务拆分
对于任务的拆分,用到了 思维链的概念。这个思维链在数据结构中其实就是一棵树!解决子任务的过程就是不断遍历书的一个过程。比如深度优先探索、广度优先探索。