认识大模型

📅 2026/7/1 16:52:31
认识大模型
简介AI 大模型从 chat 聊天慢慢进化成 AI agent.AI agent 可以查资料、整理表格、生成图表、写报告串成一个连续的任务什么是大模型先分清三个词AI、大模型、Agent。AI人工智能是一个大的范围。只要机器能表现出智能行为比如识别图片、听懂语音、翻译句子、下棋、推荐内容都属于 AI。大模型是 AI 里很重要的一类模型。它通过大量数据训练学到语言、图像、代码和知识中的规律。它的特点是通用同一个模型可以写作文、做总结、翻译、看图、写代码。Agent不是另一个大模型而是一种使用大模型的方式。大模型负责理解和生成Agent 在它旁边接上工具、记忆和执行流程让 AI 不只是回答问题还能一步步完成任务。可以这样理解大模型是“大脑”负责思考和表达。工具是“手和工具箱”负责查资料、读文件、算数据、画图。Agent 是“数字助理”把大脑、工具和流程组织起来把任务做完。大模型有什么不同早期的机器做判断最直接的规则是写判断比如判断一封邮件是不是垃圾邮件可以规定出现某些词、链接很多等但问题是真实世界太复杂规则写不完。新词、新写法、新例外会不断出现规则很快就会漏掉一些情况。后来研究人员换了一种思路不再手写所有规则而是让模型从大量样例中寻找规律再往后模型能处理的内容越来越多图片、语音、长文本、代码都可以进入模型。但很长一段时间里很多系统仍然是“一个任务配一个模型”翻译有翻译模型识别有识别模型换一个任务往往就要重新准备数据、重新训练或重新调系统。大模型的特点“大”不仅指文件体积大或硬件成本高其核心特质主要体现在以下三个方面参数规模参数可以理解为模型内部用于存储规律的“旋钮”模型能够表达和捕捉的模式就越复杂。训练数据多适用的范围广大模型、平台和应用的关系在学习大模型时我们还会接触到许多产品和平台的名称比如千问、万相、百炼、QoderWork。为了更好地理解它们的定位可以将这些产品划分为三个清晰的层次模型层核心负责底层的理解和生成能力。例如千问、万相属于这一类。平台层封装负责将模型封装成可用的服务包括提供模型体验、API 调用以及接入知识库和工具等。例如百炼属于这一类。应用或 Agent 层落地直接面向具体的任务场景比如读取文件、撰写报告、做数据分析、辅助编码等大模型怎样生成回答你和大模型对话时会看到回答一个字、一个词出现。大模型生成文字时会根据前面的内容预测下一个token再把这个 token 接到已有内容后面继续预测下一个 tokenhttps://img.alicdn.com/imgextra/i3/O1CN01S1c2Gf1GAbeVTXZ6i_!!6000000000582-55-tps-760-620.svgtoken 是模型眼里的文字片段大模型一步步生成的不一定是你眼里的“一个字”或“一个词”而是 token。你可以先把 token 理解成模型眼里的“文字片段”。这能解释一个常见现象有研究者发现一些模型数不对“strawberry”里有几个“r”这是由于这些模型看到的文字和你看到的不一样。你看到的是一个个字母模型看到的可能是 str / aw / berry 这样的几个片段。中文也一样。你眼里是 今 / 天 / 天 / 气 四个字但 tokenizer 可能会把它切成 今天 / 天气 两个 token。模型处理的是这些切分后的片段再把片段转换成数字 ID。https://img.alicdn.com/imgextra/i4/O1CN01B25clP1kitmRYCgf7_!!6000000004718-55-tps-980-720.svg注意力让模型抓住信息知道大模型的 token 之后但是有一个问题是模型如何根据我输出的信息去抓住这个点给我想要的答案的MOE 大模型技术的持续演进MoE(Mixture of Experts混合专家模型) 可以理解成模型内部准备了好多的“专家”不同的专家解决不同的问题这有点像学校里有一个“专家服务台”。语文、数学、物理、英语老师都在后台待命。学生问物理题时系统不会叫来所有老师而是快速判断问题类型只请相关老师参与。对学生来说体验像是在问一个人回答很快对系统来说背后其实有多个专家在分工。MoE 的价值就在这里让模型拥有更多知识和能力同时只激活需要的部分因此既更聪明也更高效。大模型怎样学会当助手如果大模型只是一步步续写它为什么能听懂“帮我总结”“翻译成中文”“列出优缺点”这些要求答案是训练过程不只让它学会续写还会继续教它按人的要求回答并把回答方式调得更稳预训练第一步是预训练。你可以把它想成让模型先大量阅读新闻、书籍、网页、论文、代码、问答记录等。读得越广它越熟悉语言怎么组织知识通常怎么表达前后文之间有什么关系。对应到训练任务模型会反复练习“根据前面的 token 预测下一个 token”。这个练习看起来简单但当数据足够多、类型足够丰富时模型会逐渐学到语言规律、常识、专业表达和代码模式。预训练数据不是越杂越好。数据质量会直接影响模型表现数据情况可能影响数据少知识有限容易犯低级错误数据多但质量低可能学到错误、重复、偏见或无用信息数据多且质量高泛化能力和理解力通常更强因此预训练数据通常要经过清洗和治理去重、去噪、过滤低质量内容移除有害内容处理个人信息并尽量覆盖不同语言和领域。SFT教模型按指令回答第二步是 SFT监督微调。它解决的问题是模型怎样从“会续写”变成“会按要求回答”。做法是给模型看大量高质量的“指令-回答”样本。比如用户这样问答案应该这样写这个场景要简洁回答那个场景要分步骤说明要求表格就尽量按表格输出。和预训练不同SFT 更看重示范质量。样本要像真实问题答案要可靠格式要清楚。专业任务还需要懂专业的人参与设计和审核。公开研究里也能看到这种思路。比如 GPQA 收集的是生物、物理、化学领域专家编写的研究生级问题PHYSICS 整理了大学物理和博士资格考试级别的问题。这类数据集不等同于某个模型的 SFT 训练集但它们说明了同一个原则专业能力不能只靠泛泛的问答样本堆出来高质量题目、可靠答案和专家审核都很重要。经过 SFT模型更像一个会听指令的助手让它总结它就总结让它翻译它就翻译让它按表格输出它就尽量按表格输出。偏好对齐让回答更符合人的期待会按指令回答还不等于回答得令人满意。有些回答可能太啰嗦有些看起来很自信但依据不足有些问题本来就不该直接回答。偏好对齐要解决的就是“什么样的回答更合适”。一种常见做法是 RLHF基于人类反馈的强化学习让模型针对同一个问题生成多个回答再请人比较哪个更有用、更安全、更符合事实。模型再根据这些反馈调整自己的回答方式。也有更直接的方法比如 DPO直接偏好优化。它直接利用“回答 A 比回答 B 更好”这样的偏好数据来优化模型不单独训练“评分老师”。无论采用哪种方案目标都不是单纯补知识而是让模型更会表达该回答时回答得有帮助该拒绝时拒绝得稳妥该说明依据时把依据说清楚。所以大模型不是突然变成助手的。它先通过预训练获得语言和知识再通过 SFT 学会按指令回应最后通过偏好对齐调整回答方式。