李宏毅：从零开始搞懂 AI Agent

📅 2026/7/1 15:22:44

引言AI Agent 是什么为什么它突然火了如果你最近刷过科技新闻或者 X 平台可能会发现「AI Agent」这个词频频出现。它听起来很酷像科幻电影里的智能助手但它到底是什么为什么 2023 年以后突然又火了起来想象一下你有个超级聪明的助理。你不用告诉它每一步怎么做只需要说「帮我订一张去上海的机票预算 2000 元。」它就会自己上网查航班、比价、填表单最后把票订好。这样的「助理」就是 AI Agent 的核心想法——它不是等着你发号施令而是自己想办法达成目标。这和我们平时用的 ChatGPT 有点不一样对吧ChatGPT 是你问一句它答一句而 AI Agent 更像一个「主动做事的小能手」。一、AI Agent 的本质——从「听话」到「主动」1.1 AI Agent 和普通 AI 的区别先搞清楚一个问题AI Agent 到底跟我们常用的 AI 有什么不一样假设你问 ChatGPT「AI Agent 的中文是什么」它会老老实实回答「AI Agent 的中文是‘人工智能代理’。」这就是典型的 AI——你给指令它执行完事。但 AI Agent 不一样。你如果对它说「帮我研究一下 AI Agent 的定义」它不会只丢给你一个翻译而是可能会自己去搜资料、分析不同观点最后整理出一份报告。简单来说普通 AI像个听话的工具你说「跳」它就跳一下。AI Agent像个有主动性的助手你给个目标它自己规划怎么跳、跳多高。用课程里的比喻普通 AI 是「一个口令一个动作」而 AI Agent 是「人类只给目标AI 自己找路」。以一个「研究任务」为例展示AI Agent如何工作1.2 AI Agent 的定义和工作循环那 AI Agent 具体是怎么工作的呢课程里给了个清晰的框架可以用一张图来概括目标人类给的终点比如「赢一盘围棋」。观察AI 感知到的当前情况比如「棋盘上黑白子的位置」。行动AI 根据观察决定做啥比如「在第 5 行第 7 列落子」。环境变化行动引发的结果比如「对手回了一步」。循环不断观察、行动直到目标达成。举个例子AlphaGo 就是个经典的 AI Agent。它的目标是「赢棋」观察是「当前棋盘状态」行动是「落子」然后对手回应它再观察、再行动。这个循环听起来是不是很像我们人类解决问题的方式先看情况想办法试一下再调整。这个工作循环体现了 AI Agent 的自主性和反应式架构——像人类一样通过试错逼近目标而非单纯执行预设指令。1.3 为啥 AI Agent 跟强化学习RL有关如果你学过机器学习可能会觉得这个循环很眼熟。它跟强化学习Reinforcement Learning, RL的思路很像。RL 的核心是让 AI 通过试错学会最大化「奖励」Reward。比如 AlphaGo赢棋 Reward 是 1输棋是 -1它通过无数次模拟对局学会怎么下才能赢。但传统的 AI Agent 多靠 RL 打造比如 AlphaGo 得专门为围棋训练一个模型。可问题来了换个任务比如下象棋它还得重头练。这就有点笨拙了。而现在AI Agent 之所以又火起来是因为我们有了新玩法——直接用大型语言模型LLM当 Agent不用每次都重新训练。这是个大转折后面会细讲。二、AI Agent 的「新灵魂」——大型语言模型LLM2.1 LLM 如何变身 AI Agent过去RL 打造的 AI Agent 虽然强但局限明显一个模型只能干一件事。现在有了 LLM像 ChatGPT、Grok 这样的语言模型情况变了。LLM 的超能力在于通用性——它能理解文字、回答问题、写代码甚至看图说话。那能不能直接让它当 AI Agent 呢答案是可以的LLM 驱动的 AI Agent 是这样工作的 40.目标用文字输入比如「帮我下赢围棋」。 41.环境转成文字或图片棋盘状态可以用文字描述「黑子在 A1白子在 B2」或者直接给图片。 42.行动用文字输出LLM 说「我要在 C3 落子」然后有人或系统把这文字转成实际操作。 43.循环直到成功环境变了LLM 再观察、再输出新行动。这跟 RL 的区别是LLM 不用专门训练它靠已有的语言理解能力直接「猜」下一步该干啥。是不是很省事2.2 LLM 做 Agent 的优缺点优点灵活性不像 AlphaGo 只能下围棋LLM 能处理各种任务只要你能用文字描述目标。无需定义 RewardRL 得手工设计奖励函数比如「赢棋 1」但这很难调。LLM 直接读懂目标和反馈比如给它个错误日志它自己就能改代码不用你说「错一次 -1」。无限可能LLM 能输出任何文字行动空间几乎无限制而 AlphaGo 只能在 19×19 的棋盘里挑一个点。缺点不靠谱LLM 本质是「文字接龙机」它可能瞎猜一步而不是深思熟虑。依赖描述环境得转成文字或图片如果描述不清楚它就懵了。前一段有一个新闻有人让 ChatGPT 和 DeepSeek 下象棋结果它们把「兵」当「马」跳还凭空变出棋子最后 DeepSeek 吃了自己一子宣布胜利ChatGPT 还认输了……这说明LLM 做 Agent 还得磨练。三、AI Agent 的三大关键能力课程里把 AI Agent 的能力拆成三块根据经验调整行为、使用工具、做计划。这三点决定了它能不能从「听话工具」进化成「聪明助手」。3.1 根据经验调整行为这个能力为什么重要人类做事靠经验AI Agent 也一样。比如你写代码报错编译器告诉你「缺个分号」下次你就记得加分号。AI Agent 得有类似能力看到反馈后调整下一步。LLM 怎么做到LLM 不用调参数直接把反馈塞进输入它就变聪明了。比如输入「写个加法函数。」输出「def add(a, b): return a b」反馈「有错b 没定义类型。」新输入「写个加法函数反馈说 b 没定义类型。」新输出「def add(a: int, b: int) - int: return a b」这靠的是 LLM 的「上下文学习」In-Context Learning不用训练输入变了输出就变。挑战记忆爆炸如果每次行动都把历史全塞给 LLM步数一多比如 1 万步输入就太长算力撑不住。怎么办课程提了三个模块Write写入决定啥值得记。比如「桌子在那儿」不重要「对手下了关键一步」才记。Read读取从记忆里挑相关经验像 RAG检索增强生成技术从海量数据里找有用的。Reflection反思总结经验比如「对手老爱走中间我得防着点」。实验发现正面反馈「这步对了」比负面反馈「这步错了」更有效因为 LLM 更擅长照着「好例子」学。3.2 使用工具为什么需要工具LLM 再强也有短板。比如它不会直接查天气得靠外部工具。工具就像 AI Agent 的「外挂」让它能干更多事。怎么用一个通用方法告诉它工具咋用比如用 Temperature(地点, 时间) 查温度。输入问题今天台北多热输出指令[Tool] Temperature(台北, 现在) [Tool]执行并反馈[Output] 28°C [Output]最终回答台北现在 28°C。常用工具包括搜索引擎查资料RAG。代码执行器写程序并运行。其他 AI比如让语音 AI 帮它听音频。挑战工具多了咋办工具一多比如上千个LLM 不可能全记住。解决办法是用「工具选择模块」像 RAG 一样从工具库里挑合适的。更有趣的是LLM 还能自己写代码造工具存起来复用。小心工具出错工具可能给错信息比如搜索引擎搜到恶搞贴说「披萨起司用胶水粘」。LLM 有一定判断力比如「1 万度太离谱」但有时也会被忽悠得教它别太信工具。3.3 做计划什么是计划计划就是先想好步骤再行动。比如刷牙找牙刷 → 挤牙膏 → 刷 → 漱口。AI Agent 也得会规划不然每步都随机试太笨了。LLM 能规划吗能但不完美。给它说「做百万订阅 YouTuber」它能列个计划选主题 → 优化标题 → 做直播……听起来不错但细节常出错。比如安排旅行它可能忘了预算限制或者行程撞车。怎么提升有几个思路 44.试错法Tree Search每步都试试挑最好的。但算力成本高得剪掉没希望的路。 45.脑内模拟World Model让 LLM 自己猜下一步会咋样像做梦一样规划。比如网页买东西它先想象「点这个会跳到哪」。 46.用工具帮忙复杂限制像预算交给专门的求解器LLM 只管写代码调用。实验显示新模型如 o1在「神秘方块世界」这种怪题上表现更好说明推理能力帮了大忙。但有时它们也「想太多」光模拟不行动。四、未来展望4.1 AI Agent能干啥游戏AI NPC自己聊天、办派对甚至建社区。用电脑订 Pizza、买票像人类一样操作屏幕。科研提研究提案、做实验。训练 AI写代码跑模型调参数比 baseline。4.2 短板在哪不稳定下棋能胡来旅行计划超预算。依赖环境描述描述不清就抓瞎。想太多或太少要么卡在脑内模拟要么直接放弃。4.3 AI Agent 离「全能助手」还有多远实时互动像语音对话得随时调整不能一问一答。更好记忆挑重要经验别记鸡毛蒜皮。更强规划结合推理和工具少想多做。结语AI Agent 是 AI 从「工具」到「伙伴」的进化。它用 LLM 的通用性摆脱了 RL 的局限虽然还不完美但潜力巨大。未来LLM 可能不仅是 Agent 的「大脑」还能模拟环境、造工具甚至自己进化。到那时你说「帮我赚一百万」它真能自己开公司也说不定。学AI大模型的正确顺序千万不要搞错了2026年AI风口已来各行各业的AI渗透肉眼可见超多公司要么转型做AI相关产品要么高薪挖AI技术人才机遇直接摆在眼前有往AI方向发展或者本身有后端编程基础的朋友直接冲AI大模型应用开发转岗超合适就算暂时不打算转岗了解大模型、RAG、Prompt、Agent这些热门概念能上手做简单项目也绝对是求职加分王给大家整理了超全最新的AI大模型应用开发学习清单和资料手把手帮你快速入门学习路线:✅大模型基础认知—大模型核心原理、发展历程、主流模型GPT、文心一言等特点解析✅核心技术模块—RAG检索增强生成、Prompt工程实战、Agent智能体开发逻辑✅开发基础能力—Python进阶、API接口调用、大模型开发框架LangChain等实操✅应用场景开发—智能问答系统、企业知识库、AIGC内容生成工具、行业定制化大模型应用✅项目落地流程—需求拆解、技术选型、模型调优、测试上线、运维迭代✅面试求职冲刺—岗位JD解析、简历AI项目包装、高频面试题汇总、模拟面经以上6大模块看似清晰好上手实则每个部分都有扎实的核心内容需要吃透我把大模型的学习全流程已经整理好了抓住AI时代风口轻松解锁职业新可能希望大家都能把握机遇实现薪资/职业跃迁这份完整版的大模型 AI 学习资料已经上传CSDN朋友们如果需要可以微信扫描下方CSDN官方认证二维码免费领取【保证100%免费】

新闻详情

相关阅读

Applite终极指南：最简单直观的Mac软件管理神器

别再选烂大街的题目了！MBA论文避坑选题清单

模板驱动型文档自动化：重构内容生产流水线

好吧，既然是概述，那么就先说点什么，光一个表格个人感觉表现力太有限了。如果对笔者的自报家门没啥兴趣的话，可以直接跳到下一节。

YOLOv10模型改进-注意力机制-第33篇：YOLOv10改进策略【注意力机制】| EfficientAttention高效注意力

基于MCP协议构建跨平台移动自动化测试框架：5分钟实现iOS与Android统一测试

paperxie 论文智能写作全拆解｜一步一步看懂学术创作完整操作逻辑

paperxie 论文智能创作工具实测：按页面指引走，轻松搞定全类型学术文稿

RevokeMsgPatcher防撤回补丁原理与版本适配实战指南

Selenium元素定位全解析：从八大方法到实战策略

BurpSuite Cluster Bomb模式深度避坑指南：从原理到实战的完整爆破策略

UnblockNeteaseMusic终极教程：3分钟解锁网易云音乐灰色歌曲的完整方案

管理者的六个层次

华为OD机试2025C卷-座位调整[100分]（ Java _ Python3 _ C++ _ C语言 _ JsNode _ Go）实现100%通过率

CrabCode v1.0.7与v1.0.8 更新速览！

FAE放射组学分析工具：医学影像特征探索的完整解决方案

基于Dify与DeepSeek构建私有知识库问答系统实战指南

餐饮老板必看：扫码点餐小程序3步搞定，别再让顾客干等了！