大模型核心技术与企业级应用实战指南-附录

📅 2026/7/1 1:46:45
大模型核心技术与企业级应用实战指南-附录
附录这部分是整本书的工具箱——遇到不熟悉的概念回来查看到感兴趣的工具体验一下想深入研究的照着参考文献去找原文读。附录A常用术语表按字母顺序排列方便快速查阅。AAdam— 一种自适应学习率的优化算法结合了动量Momentum和RMSProp的优点。训练深度学习模型时的默认选择。Agent— 能够感知环境、自主规划、调用工具、并执行动作的智能体。不只是回答问题而是能完成任务。Attention Mechanism注意力机制— 让模型在处理序列时能够关注到输入中不同位置的信息。Transformer架构的核心。AutoRegressive自回归— 生成式模型的一种工作方式每次生成一个token然后把刚生成的token作为输入继续生成下一个直到遇到结束标记。GPT系列就是自回归的。BBERTBidirectional Encoder Representations from Transformers— Google提出的预训练语言模型核心是Encoder-only架构擅长理解任务分类、NER、问答。和GPT从左到右不同BERT是双向的看一句话时能同时看到左右两边的上下文。BLEUBilingual Evaluation Understudy— 机器翻译常用的自动评估指标核心思想是模型生成的翻译和人工参考翻译之间n-gram重叠度越高分数越高。缺点是只衡量像不像不衡量意思对不对。BM25— 搜索引擎里最常用的关键词相关性打分算法是TF-IDF的改进版。RAG系统里常用来做关键词检索。CChain-of-Thought思维链CoT— 让大模型在给出答案之前先把思考过程写出来的提示技术。就像考试时要求写出解题步骤能显著提升复杂推理任务的准确率。Context Window上下文窗口— 大模型一次能处理的token数量上限。GPT-4是128kClaude 3是200k。窗口越大能记住的对话历史和参考资料就越多。Cross-Entropy Loss交叉熵损失— 分类任务最常用的损失函数。直观理解模型对正确类别的预测概率越大损失越小。DDecoder-only— 只有解码器部分的Transformer架构。GPT系列就是这个结构擅长生成任务。Dropout— 训练神经网络时的一种正则化技术每次前向传播随机关闭一部分神经元防止模型过度依赖某些特定神经元从而减轻过拟合。EEmbedding嵌入— 把离散的符号单词、句子映射到连续向量空间的操作。好的嵌入能让语义相近的词在向量空间里也离得近。Encoder-Decoder— 完整的Transformer架构既有编码器也有解码器。BART、T5是这个结构适合需要理解输入再生成输出的任务如翻译、摘要。Epoch— 训练集所有样本都跑过一遍叫一个epoch。通常要训练多个epoch但太多会过拟合。FF1 Score— 精确率Precision和召回率Recall的调和平均数。综合衡量模型准不准和全不全。Flash Attention— 一种IO感知的注意力计算算法通过分块计算和重新组织内存访问顺序大幅降低显存占用并提升计算速度。训练大模型时的标配。Function Calling函数调用— 大模型的一项能力根据用户意图自动决定调用哪个外部工具、并提取调用所需的参数。是Agent能够使用工具的基础。GGenerative AI生成式AI— 能够创造新内容文本、图像、代码、音频的人工智能。和大模型基本是同义词。GPTGenerative Pre-trained Transformer— OpenAI推出的系列模型核心是Decoder-only Transformer架构通过自回归方式生成文本。Gradient Descent梯度下降— 训练神经网络的基石算法计算损失函数对参数的梯度然后沿着梯度的反方向更新参数逐步降低损失。HHugging Face— 最流行的开源NLP/LLM工具库和模型社区。几乎能找到所有主流开源模型的实现和权重。Hyperparameter超参数— 不是模型通过训练学出来的而是需要人工设定的参数。比如学习率、batch size、LoRA的秩r。选好超参数模型训练效果可能差十倍。IIn-context Learning上下文学习— 大模型的一种能力不需要更新参数只通过在提示词里给几个例子few-shot就能学会完成新任务。是GPT-3的核心发现之一。Instruction Tuning指令微调— 用指令期望输出这样的数据对对预训练模型进行微调让模型更好地理解人类意图。ChatGPT、Claude都经过了大量的指令微调。KKnowledge Base知识库— 结构化或半结构化的知识集合。RAG系统的外部大脑。LLayer Normalization层归一化— Transformer里对每个样本的特征维度做归一化让模型训练更稳定。和Batch Normalization不同它不依赖batch里的其他样本更适合NLP任务和小batch场景。LLMLarge Language Model大语言模型— 参数规模达到亿级甚至千亿级的预训练语言模型。本书的核心主题。LoRALow-Rank Adaptation— 一种参数高效微调方法。核心思想用两个小矩阵的乘积来近似全量微调时的大矩阵更新量只训练这两个小矩阵大幅降低显存和计算开销。Loss Function损失函数— 衡量模型预测值和真实值之间差距的函数。训练的目标就是最小化损失函数。MMasked Language ModelingMLM— BERT的预训练任务随机遮盖输入中的一部分token让模型根据上下文预测被遮盖的token。这就是为什么BERT是双向的。MLPMulti-Layer Perceptron多层感知机— 多个全连接层堆叠起来的神经网络是Transformer里FFN的核心组件。Multi-Head Attention多头注意力— 把注意力计算分成多组独立进行每组关注不同的语义关系最后把结果拼接起来。让模型能同时捕捉多种不同类型的关联。NNLPNatural Language Processing自然语言处理— 让计算机理解、生成、操作人类语言的技术领域。本书的出发点。N-gram— 连续N个词的序列。N-gram语言模型是最早的统计语言模型通过统计前面N-1个词来预测下一个词。OOptimizer优化器— 决定如何根据梯度更新模型参数的算法。常见选择SGD、Adam、AdamW。Overfitting过拟合— 模型在训练集上表现很好但在未见过的测试集上表现很差。就像死记硬背了考试题库但遇到新题就不会了。PPEFTParameter-Efficient Fine-Tuning— 参数高效微调的统称包括LoRA、Prefix Tuning、Adapter等方法。核心思想只微调模型的一小部分参数就能达到接近全量微调的效果。Perplexity困惑度— 衡量语言模型好坏的常用指标。直观理解模型预测下一个词时的不确定程度困惑度越低模型越好。Prompt Engineering提示工程— 设计高质量提示词的技术。好的提示词能让模型发挥出远超默认表现的能力。PyTorch— FacebookMeta开源的深度学习框架动态图设计调试方便是目前大模型研究和开发的主流框架。RRAGRetrieval-Augmented Generation检索增强生成— 让模型在回答问题之前先从外部知识库检索相关信息然后基于检索结果生成答案。解决大模型知识截止和幻觉问题的核心技术。RankBM25— 一个Python库实现了BM25等关键词检索算法。RAG系统里做关键词检索的常用工具。ReActReasoning Acting— Agent的一种工作范式让模型交替进行推理思考下一步和行动调用工具直到完成任务。是目前最主流的Agent范式之一。Recall召回率— 相关信息中被成功检索到的比例。“宁可多检一些不要漏掉”追求高召回率。Reinforcement Learning from Human FeedbackRLHF人类反馈强化学习— 让模型输出更符合人类偏好的训练方法。ChatGPT、Claude都经过了RLHF训练。大致流程让人类对模型输出排序 → 训练一个奖励模型 → 用强化学习优化LLM策略。Reranker重排序模型— 对检索结果进行二次精排的模型。先用快速方法如向量检索粗召回一批候选再用精确的Reranker模型重新打分排序兼顾速度和精度。ROUGERecall-Oriented Understudy for Gisting Evaluation— 摘要任务常用的自动评估指标衡量生成摘要和参考摘要之间的n-gram重叠度。和BLEU类似但更关注召回参考摘要里的词有多少出现在生成摘要里。SSelf-Attention自注意力— Transformer的核心机制让序列中的每个token都能看到序列中所有其他token并根据相关性加权汇总信息。Semantic Search语义搜索— 不是靠关键词匹配而是靠意思相近来检索。把查询和文档都转换成向量然后找向量最相似的文档。Sentence Transformers— 一个专门用来生成句子/文档级嵌入向量的Python库基于PyTorch封装了很多优秀的预训练嵌入模型如BGE、all-MiniLM。Softmax— 一种把任意实数向量转换成概率分布的函数。输出所有值都在0-1之间且加起来等于1。分类任务最后一层通常用Softmax。Supervised Fine-TuningSFT有监督微调— 用输入输出配对数据对预训练模型进行微调让模型学会按照指定格式回答问题。指令微调就是SFT的一种。TTemperature温度— 控制大模型生成随机程度的参数。温度越高生成越多样但可能乱说温度越低生成越确定但可能重复啰嗦。写代码用低温写创意文案用高温。Token— 大模型处理文本的最小单位。对英文来说一个token大约对应3-4个字母或一个单词对中文来说一个token大约对应1-2个汉字。API通常按token数量收费。Transformer— 2017年Google提出的深度学习架构完全基于注意力机制抛弃了RNN/CNN结构。GPT、BERT、Claude、Gemini……所有主流大模型都是Transformer的变体。Turing Test图灵测试— 衡量机器是否具备人类水平智能的经典测试让人类裁判通过文字对话区分对方是机器还是人如果裁判无法区分则认为机器通过了测试。UUnderfitting欠拟合— 模型连训练集都学不好通常是因为模型太简单或训练不充分。和过拟合相反。Unsupervised Learning无监督学习— 不需要人工标注的数据让模型自己从数据中发现模式。大模型的预训练本质上就是无监督学习预测下一个词。VVector Database向量数据库— 专门用来存储和检索高维向量的数据库。RAG系统的核心组件常见选择Pinecone、Weaviate、Milvus、Chroma、FAISS。Vector Embedding— 见Embedding。Vocabulary词表— 模型能识别的所有token的集合。词表大小是影响模型参数量的因素之一。WWeight权重— 神经网络中可学习的参数。训练的本质就是找到一组好的权重让模型在任务上表现好。Word2Vec— Google提出的词嵌入模型2013年提出开启了现代词嵌入技术的浪潮。核心思想一个词的含义可以由它周围的词来定义分布假说。附录B开源工具与资源汇总这一节把全书提到的、以及业界常用的工具和资源整理出来按用途分类。每个工具都附上一句什么时候用。B.1 深度学习框架工具一句话介绍适用场景PyTorchMeta开源的动态图深度学习框架研究、原型开发、大模型训练首选TensorFlowGoogle开源的深度学习框架生产部署、移动端推理JAXGoogle的高性能数值计算库超大规模模型训练如Google GeminiHugging Face Transformers最流行的预训练模型库几乎任何NLP/LLM任务必装Hugging Face PEFT参数高效微调工具库LoRA、Prefix Tuning等PEFT方法必装B.2 向量数据库工具类型一句话介绍适用场景FAISS开源库Facebook开发速度极快单机高性能检索Chroma开源轻量易用Python友好原型开发、中小规模Weaviate开源/云服务功能全面支持多模态企业私有部署Milvus开源分布式架构支持百亿级向量大规模生产环境Pinecone云服务收费完全托管开箱即用快速上线、无运维资源Qdrant开源Rust开发安全高效生产环境、注重性能pgvectorPostgreSQL插件直接在PostgreSQL里存向量已有PG生态不想引入新组件B.3 RAG开发框架工具一句话介绍适用场景LangChain最流行的LLM应用开发框架RAG、Agent、Chain工作流首选LlamaIndex专注于RAG的数据框架知识库索引、复杂检索策略Haystackdeepset开发的开源RAG框架企业搜索、问答系统RAGASRAG系统评估框架评估RAG检索质量、生成质量B.4 Agent开发框架工具一句话介绍适用场景LangChain AgentsLangChain内置的Agent模块快速搭建ReAct AgentAutoGenMicrosoft的多Agent对话框架多Agent协作、代码生成CrewAI以角色为中心的Agent框架模拟团队协作完成复杂任务Semantic KernelMicrosoft的Agent框架.NET生态、企业集成OpenAI Function CallingOpenAI原生的函数调用能力最简单的Agent工具调用入门B.5 大模型推理与服务工具一句话介绍适用场景vLLM高性能LLM推理框架生产环境部署首选TGIText Generation InferenceHugging Face的推理服务快速部署Hugging Face模型Ollama本地运行LLM的工具本地开发测试、离线环境LM Studio图形化本地运行LLM非技术人员体验LLMOpenLLMetryLLM应用可观测性工具生产环境监控、调试B.6 微调与训练工具一句话介绍适用场景Hugging Face PEFT参数高效微调库LoRA等PEFT方法必装DeepSpeedMicrosoft的分布式训练库超大规模模型训练FSDPFully Sharded Data ParallelPyTorch内置的分布式训练替代DeepSpeed的PyTorch原生方案Axolotl开箱即用的LLM微调工具快速微调各种开源模型LLaMA-Factory国内团队开发的微调框架中文模型微调、Web UI界面B.7 评估与测试工具一句话介绍适用场景RAGASRAG系统评估框架评估RAG检索和生成质量OpenAI EvalsOpenAI的评估框架评估LLM应用效果LM Evaluation HarnessEleutherAI的评估工具评估LLM基础能力PromptFoo提示词测试工具A/B测试不同提示词效果B.8 学习资源必读论文按理解优先级排序Attention Is All You NeedVaswani et al., 2017— Transformer原始论文必读BERT: Pre-training of Deep Bidirectional TransformersDevlin et al., 2018— BERT论文Language Models are Few-Shot LearnersBrown et al., 2020— GPT-3论文提出in-context learningLLaMA: Open and Efficient Foundation Language ModelsTouvron et al., 2023— 开源大模型里程碑LoRA: Low-Rank Adaptation of Large Language ModelsHu et al., 2021— LoRA原始论文Chain-of-Thought Prompting Elicits Reasoning in Large Language ModelsWei et al., 2022— CoT论文ReAct: Synergizing Reasoning and Acting in Language ModelsYao et al., 2022— ReAct范式论文FlashAttention: Fast and Memory-Efficient Exact AttentionDao et al., 2022— Flash Attention论文推荐书籍《深度学习》Goodfellow et al.— 深度学习奠基教材免费在线阅读《动手学深度学习》李沐等— 中文最佳深度学习入门书配有B站视频《Natural Language Processing with Transformers》Hugging Face团队— Transformer实战最佳参考书推荐课程CS224NStanford— 斯坦福NLP课程免费在线质量极高李宏毅《机器学习》— 中文最佳机器学习/深度学习课程B站可看Andrej Karpathy YouTube— 前OpenAI创始成员教学能力极强免费社区与平台Hugging Face— 模型、数据集、Spaces演示LLM生态中心GitHub— 几乎所有开源LLM项目的家园Papers with Code— 论文代码对应跟踪SOTA结果知乎「大模型」话题— 中文社区有很多高质量技术解析Discord各种LLM项目— 直接和大模型开发者交流的地方附录C参考文献与延伸阅读按章节排列方便对照查阅。第一章神经网络原理Goodfellow, I., Bengio, Y., Courville, A. (2016).Deep Learning. MIT Press. 免费在线阅读Rumelhart, D. E., Hinton, G. E., Williams, R. J. (1986). Learning representations by back-propagating errors.Nature, 323(6088), 533-536.Kingma, D. P., Ba, J. (2014). Adam: A method for stochastic optimization.ICLR 2015.李沐等. (2019).动手学深度学习. 免费在线阅读.第二章NLP核心逻辑Mikolov, T., et al. (2013). Efficient estimation of word representations in vector space.ICLR 2013. [Word2Vec原始论文]Pennington, J., Socher, R., Manning, C. D. (2014). GloVe: Global vectors for word representation.EMNLP 2014.Devlin, J., et al. (2018). BERT: Pre-training of deep bidirectional transformers for language understanding.NAACL 2019.Radford, A., et al. (2019). Language models are unsupervised multitask learners.OpenAI Blog. [GPT-2论文]Brown, T., et al. (2020). Language models are few-shot learners.NeurIPS 2020. [GPT-3论文]第三章Transformer架构详解Vaswani, A., et al. (2017). Attention is all you need.NeurIPS 2017. [Transformer原始论文必读]Press, O., et al. (2021). Train short, test long: Attention with linear biases enables input length extrapolation.ICLR 2022. [ALiBi位置编码]Su, J., et al. (2021). RoFormer: Enhanced transformer with rotary position embedding.arXiv:2104.09864. [RoPE位置编码]Dao, T., et al. (2022). FlashAttention: Fast and memory-efficient exact attention with IO-awareness.NeurIPS 2022.Touvron, H., et al. (2023). LLaMA: Open and efficient foundation language models.arXiv:2302.13971.第四章RAG构建私有知识库Lewis, P., et al. (2020). Retrieval-augmented generation for knowledge-intensive NLP tasks.NeurIPS 2020. [RAG原始论文]Gao, L., et al. (2023). REALM: Retrieval-augmented language model pre-training.ICML 2020.Karpukhin, V., et al. (2020). Dense passage retrieval for open-domain question answering.EMNLP 2020.Es, S., et al. (2023). RAGAS: Automated evaluation of retrieval augmented generation.arXiv:2309.15217. [RAGAS评估框架]Chen, J., et al. (2023). Benchmarking large language models in retrieval-augmented generation.arXiv:2309.01431.第五章Agent自主规划与工具调用Wei, J., et al. (2022). Chain-of-thought prompting elicits reasoning in large language models.NeurIPS 2022. [CoT论文]Yao, S., et al. (2022). ReAct: Synergizing reasoning and acting in language models.ICLR 2023. [ReAct论文必读]Yao, S., et al. (2023). Tree of thoughts: Deliberate problem solving with large language models.NeurIPS 2023. [ToT论文]Besta, M., et al. (2023). Graph of thoughts: Solving elaborate problems with large language models.arXiv:2308.09687. [GoT论文]Nakano, R., et al. (2021). WebGPT: Browser-assisted question-answering with human feedback.arXiv:2112.09332.第六章LangChain/AutoGen框架实战Chase, H. (2022).LangChain Documentation. https://python.langchain.com/docs/Wu, Q., et al. (2023). AutoGen: Enabling next-gen LLM applications via multi-agent conversation.arXiv:2308.08155. [AutoGen论文]Russo, D. (2023).CrewAI Documentation. https://docs.crewai.com/Microsoft Semantic Kernel Team. (2023).Semantic Kernel Documentation. https://learn.microsoft.com/semantic-kernel/第七章LoRA微调技术实战Hu, E. J., et al. (2021). LoRA: Low-rank adaptation of large language models.ICLR 2022. [LoRA原始论文必读]Dettmers, T., et al. (2023). QLoRA: Efficient finetuning of quantized LLMs.NeurIPS 2023. [QLoRA论文]Zhang, Q., et al. (2023). AdaLoRA: Adaptive budget allocation for parameter-efficient fine-tuning.ICLR 2023.Lialin, V., et al. (2023). Scaling down to scale up: A guide to parameter-efficient fine-tuning.arXiv:2303.15647. [PEFT综述]Meng, F., et al. (2024). PISSA: Principal singular values and singular vectors adaptation.arXiv:2404.02949.延伸阅读建议如果想深入某个方向推荐按这个顺序来理论方向先读Transformer论文 → BERT/GPT论文 → 找最近1年的综述论文Survey跟着参考文献树往下挖工程方向直接上手Hugging Face Transformers文档 → 跑通一个开源模型微调 → 读对应模型的technical reportRAG方向读RAG原始论文 → RAGAS论文 → 直接搭一个本地RAG系统用LangChainChroma半天就能跑通Agent方向读ReAct论文 → ToT论文 → 用LangChain Agents搭一个能调用搜索工具的Agent1天能跑通最后一句大模型技术迭代极快这本书里的内容在你读到的时候可能已经有所更新。保持好奇心多逛Hugging Face和arXiv比任何书都重要。全书完。