AI Agent

📅 2026/6/30 13:42:33
AI Agent
LLM——大语言模型核心基础是Transformer 架构。能力根据文本生成提示词理解上下文语境能够实现翻译问答代码编写和推理。TransformerRAG——检索增强生成。RAG就是讲信息检索和大语言模型生成相结合的技术架构。解决了LLM本身存在的一些固有局限如幻觉问题知识过时训练数据有时间截止点无法回答之后发生的新事件领域知识不足对企业内部文档、私有数据等缺乏了解。把企业的知识库直接在输入框中丢给AI(会有上下文窗口的限制,成本非常高,响应速度很慢)RAG的本质就是在大模型回答之前,先检索资料,在基于资料生成答案.RAG核心流程:数据准备将知识库切分成多个小块,每一个小块尽量表达一个完整的语义.(不切分整篇文档去做处理会导致语义混乱,检索不准确)将文本块转化成向量,每个块都会对应一个向量,然会将文本内容和它对应的向量存到向量数据库中用户提问会用户的问题给向量化,然后用这个向量分别和数据库中的每个向量去计算相似度(计算相似度的方法有余弦相似度和欧式距离等)返回与其最相近的top-k个块(召回K个块,这一步只是粗筛,只能判断和问题像不像,不能保证这几个块到底有没有回答用户提问的问题),然后我们会在进行rerank(重排序)就是进行进一步的筛选(选择最可以回答用户问题的文本块),最后我们将用户的原始问题和检索到资料一起组成增强后的提示词,发送给LLM,生成答案.卡点及优化技巧企业私有文档,有pdf,表格,图片等解析起来非常复杂,数据清洗(会结合一些版面模型,或者一些OCR的识别技术)切块:太大会导致内容太杂包含很多内容,切的太小会导致语义断裂.所以切分粒度要刚好,做到每个块尽可能的都语义相对完整用户的问题可能口语化(需要进行问题重写,主要是补充一些隐含信息)检索用的最多的是混合检索(关键字检索和向量相似度检索)TransformerTransformer 采用经典的编码器-解码器Encoder-Decoder结构Tokenizer负责编码和解码.编码就是将用户问题切分成一个个小片段,这些片段叫做token,每个token对应一个tokenID一对一绑定AgentLLM和Workflow和Agent的区别LLM就是一个大脑Workflow 是由开发者预先定义好的执行流程通常是有向无环图 DAG。步骤、分支、条件判断都是代码写死的LLM 只是其中某个节点的处理器。Agent LLM 规划模块 记忆模块 工具调用模块 循环执行闭环。它能接收一个目标自主拆解任务、选择工具、执行操作并根据中间结果动态调整策略直到任务完成。Agent能够自己规划工作流,调用工具 有自己记忆模块,最重要的是Agent有自主工作的能力(Agent Loop智能体循环)ReAct最经典的一个框架是ReAct(推理与行动)原理核心节点3 个ReasoningNode推理判断ActionNode执行工具调用ObservationNode消化结果并回写上下文工程增强节点3 个SummarizingNode当上下文越来越长时对历史对话进行摘要压缩LimitExceededNode防止无限循环超过最大迭代次数时触发兜底逻辑FinalAnswerNode统一收口正常路径与兜底路径输出最终答案不同团队根据业务需求还可以继续扩展如增加审批节点高风险动作需人工确认、校验节点验证答案是否满足要求、错误恢复节点工具失败时自动重试或换策略等。优势大幅降低幻觉以工具返回的真实数据为依据而非依赖模型记忆可解释性强每一步 Thought 都是透明的推理过程便于调试和审计通用性好只需替换工具集即可从多跳问答切换到机器人控制等不同场景动态适应遇到错误能自动分析原因并调整策略重试局限Token 消耗高每轮循环都需要调用 LLM复杂任务可能触发 5-10 次调用延迟较大多轮循环导致响应时间较长依赖工具质量如果工具返回错误信息Agent 可能基于错误数据继续推理复杂推理仍有瓶颈对于需要深度多步推理的任务ReAct 的表现不如专门的推理模型如 o1、o3