AI核心技术术语详解

📅 2026/6/28 23:57:32
AI核心技术术语详解
AI 核心技术术语详解学习路线图AI 愿景与目标 ↓ 提示与交互工程 ↓ Agent 架构与协作 ↓ 推理范式与策略 ↓ 知识增强技术 ↓ 模型基础与优化 ↓ 前沿应用与落地一、AI 愿景与目标AGIArtificial General Intelligence定义通用人工智能具备像人类一样学习任何知识、完成任何任务的能力特点跨领域通用能力自主学习和适应无需专门训练即可完成新任务当前状态尚未实现仍是研究目标示例AGI 应具备的能力 - 学会驾驶汽车物理操作 - 理解复杂数学定理抽象思维 - 创作音乐作品创意能力 - 与人共情交流社交能力ASIArtificial Super Intelligence定义超级人工智能智力水平超越全人类总和的 AI特点自我改进和迭代指数级能力增长可能产生超出人类理解的能力当前状态纯理论探讨距离实现非常遥远AIGCAI-Generated Content定义人工智能生成内容指由 AI 自动创作或辅助创作的各种形式内容类型类型示例文本文章、代码、诗歌图像绘画、设计图、头像音频音乐、语音合成视频动画、短片、特效数据模拟数据、合成数据应用示例# 使用 Stable Diffusion 生成图像fromdiffusersimportStableDiffusionPipeline pipeStableDiffusionPipeline.from_pretrained(runwayml/stable-diffusion-v1-5)imagepipe(a beautiful sunset over the ocean).images[0]image.save(sunset.png)Vibe Coding定义基于智能代理框架的 AI 协作开发模式通过自然语言描述需求由 AI 多智能体分工协作完成全流程开发核心理念“人定需求AI 做执行”二、提示与交互工程Prompt Engineering提示词工程定义研究如何设计和优化提示词以引导 AI 模型生成期望的输出核心目标让模型准确理解用户意图并生成高质量响应四要素框架要素作用示例角色设定 AI 身份和专业背景“你是一位资深 Python 工程师”任务明确要完成的具体任务“请帮我优化这段代码的性能”背景提供必要的上下文信息“这段代码处理的是百万级数据”输出要求规定输出格式和风格“请以 Markdown 格式输出包含代码和解释”示例你是一位资深数据分析师。请分析以下销售数据计算月度增长率并生成一份可视化报告。 数据 - 1月100万元 - 2月120万元 - 3月115万元 - 4月135万元 要求 1. 计算每月增长率 2. 分析增长趋势 3. 提供业务建议 4. 输出格式Markdown 表格 文字分析Context Engineering上下文工程定义管理和优化提供给 AI 模型的上下文信息在有限的窗口内最大化信息价值核心挑战上下文窗口有限需要决定放什么、丢什么三大场景文档太长切片、检索、只喂相关片段RAG长对话维护滑动窗口、摘要压缩、关键信息提取多工具调用动态工具注入、工具分类索引注意力分布规律Prompt 开头 ←←← 中间 ←←← 结尾 注意力 高 低 高优化策略关键信息放在开头或结尾使用结构化格式列表、表格定期压缩历史对话Harness Engineering定义标准化管理 AI 系统的输入输出建立统一的交互规范和流程核心目标提升系统的可预测性、可维护性和可扩展性组件输入验证和格式化输出解析和结构化错误处理和回退机制性能监控和日志记录HITLHuman-in-the-Loop定义人在回路指在 AI 系统中引入人工审核和干预环节应用场景AI 处理常规任务人工审核复杂或敏感任务持续收集反馈优化模型示例智能客服流程 1. 用户提问 2. AI 生成初步回答 3. 人工审核复杂问题 4. 返回最终答案 5. 收集反馈用于模型优化三、Agent 架构与协作Agent智能体定义具备自主感知、规划、记忆和工具使用能力的数字化实体核心能力能力描述示例感知理解用户指令和环境信息解析自然语言问题规划将复杂任务分解为子任务制定执行计划记忆存储和检索历史信息记住用户偏好工具调用外部 API 和服务查询数据库、调用计算器反馈根据结果调整策略失败后重试或换方法架构示例classAgent:def__init__(self,llm,tools,memory):self.llmllm# 大语言模型self.toolstools# 可用工具列表self.memorymemory# 记忆模块defrun(self,task):# 1. 理解任务understandingself.llm.analyze(task)# 2. 制定计划planself.llm.plan(understanding)# 3. 执行计划forstepinplan:ifstep.needs_tool:resultself.tools.call(step.tool_name,step.params)self.memory.store(result)else:resultself.llm.generate(step.prompt)# 4. 返回结果returnself.llm.summarize(results)Role-playing Agents角色扮演智能体定义赋予 AI 特定身份、性格和专业能力的智能体应用场景模拟团队协作产品经理、设计师、工程师模拟专家对话医生、律师、顾问模拟用户测试不同用户画像示例角色设定 - 产品经理关注用户体验和市场需求 - 后端工程师关注技术实现和性能 - UI 设计师关注视觉设计和交互 - QA 测试员关注质量保证和边界情况 协作流程 产品经理提出需求 → UI 设计师设计方案 → 后端工程师实现 → QA 测试员验证 → 产品经理验收Workflow工作流定义按预定顺序编排的任务流程每个步骤由特定角色或工具执行特点确定性强、可调试性高适合流程清晰、可拆解的任务便于监控和优化类型Chain链式任务分解为一系列顺序执行的子任务Routing路由通过意图识别分派到不同处理路径示例链式工作流用户提问 → 意图识别 → 知识库检索 → LLM 生成回答 → 内容审核 → 返回结果Function Calling函数调用定义让 AI 模型根据需要调用外部函数或 API 的能力核心价值扩展模型能力边界实现实时数据查询执行具体操作发送邮件、创建文件等示例# 定义可用工具tools[{name:get_weather,description:查询指定城市的天气,parameters:{city:{type:string,description:城市名称}}},{name:send_email,description:发送邮件,parameters:{to:{type:string,description:收件人邮箱},subject:{type:string,description:邮件主题},content:{type:string,description:邮件内容}}}]# 模型生成工具调用user_query帮我查一下北京明天的天气然后发给张三model_response{thought:需要先查北京天气然后发送邮件,action:{name:get_weather,parameters:{city:北京}}}Skill技能定义封装多个工具调用的复合能力形成可复用的技能模块示例技能数据分析报告 包含工具 - 查询数据库 - 数据清洗 - 图表生成 - 报告撰写 使用场景用户请求分析销售数据时自动组合调用这些工具MCPModel Context Protocol定义AI 界的 USB-C 接口一种标准化的 AI 模型与外部工具通信的协议核心目标实现不同 AI 系统与工具的互操作性特点标准化接口定义自动工具发现和注册统一的调用规范A2A ProtocolAgent-to-Agent Protocol定义智能体之间协作和通信的协议核心目标支持多智能体系统中的高效协作组件消息格式定义通信机制协作协议状态同步四、推理范式CoTChain of Thought定义思维链让模型把推理过程一步步写出来核心思想通过延长生成序列将高难度单步预测转化为低难度多步预测示例问题小明有 5 个苹果小红有 3 个苹果他们一共有多少个 CoT 推理过程 1. 小明有 5 个苹果 2. 小红有 3 个苹果 3. 总数 小明的苹果数 小红的苹果数 4. 5 3 8 5. 答案8 个Self-ask自问自答定义让模型反问自己把大问题拆成多个小问题逐步求解适用场景事实链路长的问题示例问题2024 年奥运会在哪里举办 Self-ask 过程 1. 2024 年奥运会是夏季还是冬季→ 夏季奥运会 2. 最近的夏季奥运会是哪年→ 2020 年东京 3. 下一届夏季奥运会是什么时候→ 2024 年 4. 2024 年夏季奥运会举办地是哪里→ 巴黎 5. 答案法国巴黎Plan-and-Execute计划与执行定义先生成完整计划再逐步执行适用场景多步骤、长时间任务示例任务写一篇关于 AI 发展趋势的文章 Plan 1. 收集最新 AI 发展资讯 2. 整理关键技术趋势 3. 分析市场和应用场景 4. 撰写文章大纲 5. 分章节撰写内容 6. 修改和润色 Execute按计划逐步执行每个步骤ReActReason Act定义推理 行动在推理和外部行动之间交替进行适用场景需要查询信息、调用工具的任务流程思考 → 行动 → 观察 → 思考 → 行动 → 观察 → ... → 得出答案ToTTree of Thoughts定义树状思维生成多条思路分支评估后选最优适用场景解谜、规划任务示例问题如何从 A 地到 B 地 思路分支 1. 自驾时间灵活但可能堵车 2. 高铁速度快但需要提前购票 3. 飞机最快但价格高 4. 长途汽车便宜但耗时久 评估选择综合时间、成本、便利性选择高铁Reflexion反思迭代定义试错 → 反思 → 重试通过自我纠错不断优化适用场景代码生成、需要验证的任务流程执行 → 验证 → 发现错误 → 分析原因 → 修改方案 → 重试五、知识增强Embedding嵌入定义将文字、图像等离散数据转换为连续向量的过程语义相近的数据在向量空间中距离也相近数学表示文字 猫 → 向量 [0.12, 0.34, -0.56, 0.78, ...] 文字 狗 → 向量 [0.15, 0.31, -0.52, 0.75, ...] 文字 苹果 → 向量 [-0.45, 0.23, 0.67, -0.12, ...] 相似度计算cos(猫, 狗) ≈ 0.92高相似 cos(猫, 苹果) ≈ 0.35低相似应用语义搜索文本分类聚类分析推荐系统Vector Database向量数据库定义专门用于存储和检索向量数据的数据库核心能力高效的向量相似性搜索支持大规模向量存储实时索引和更新主流产品产品特点Pinecone托管服务易用性高Milvus开源性能优异Weaviate开源支持 GraphQLChroma轻量级适合开发测试使用示例importchromadb# 创建客户端clientchromadb.Client()# 创建集合collectionclient.create_collection(namedocuments)# 添加文档向量collection.add(documents[文档1内容,文档2内容,文档3内容],embeddings[vec1,vec2,vec3],ids[doc1,doc2,doc3])# 查询相似文档resultscollection.query(query_embeddings[query_vec],n_results3)RAGRetrieval-Augmented Generation定义检索增强生成先从外部知识库检索相关信息再让模型基于检索到的信息生成回答核心流程用户提问 → 向量化 → 向量检索 → 获取相关文档 → 构建 Prompt → LLM 生成回答优势减少幻觉问题支持最新知识可追溯信息来源降低对模型参数的依赖架构示例classRAGSystem:def__init__(self,embedding_model,vector_db,llm):self.embedding_modelembedding_model self.vector_dbvector_db self.llmllmdefquery(self,question):# 1. 向量化问题query_vecself.embedding_model.encode(question)# 2. 检索相关文档docsself.vector_db.search(query_vec,top_k3)# 3. 构建 Promptpromptf基于以下文档回答问题{docs}问题{question}# 4. 生成回答answerself.llm.generate(prompt)returnanswerFine-tuning微调定义在预训练模型基础上使用特定领域数据继续训练使模型适配特定任务类型类型数据量要求计算成本适用场景全参数微调大量数据高领域迁移、任务适配LoRA少量数据低快速适配、低成本微调Adapter中等数据中多任务学习流程预训练模型 → 准备训练数据 → 配置微调参数 → 训练 → 评估 → 部署六、模型基础与优化NLP / CVNLPNatural Language Processing自然语言处理研究计算机如何理解和处理人类语言CVComputer Vision计算机视觉研究计算机如何理解和处理图像和视频CNN / RNN / LSTMCNNConvolutional Neural Network卷积神经网络主要用于图像识别和处理RNNRecurrent Neural Network循环神经网络主要用于序列数据处理LSTMLong Short-Term Memory长短期记忆网络RNN 的改进版本解决梯度消失问题对比网络类型优势劣势适用场景CNN局部特征提取参数共享不擅长序列建模图像识别RNN序列建模能力梯度消失长序列处理差短文本处理LSTM长序列记忆计算复杂度高长文本、语音Transformer定义基于自注意力机制的神经网络架构是现代大模型的核心核心创新自注意力机制计算词与词之间的关联度多头注意力多组不同的注意力同时建模位置编码引入序列顺序信息残差连接和层归一化稳定训练过程架构组成编码器Encoder理解输入序列解码器Decoder生成输出序列BERT定义Bidirectional Encoder Representations from Transformers双向预训练模型特点使用掩码语言模型MLM预训练双向理解上下文适合理解类任务分类、问答、NER示例输入[CLS] 我 [MASK] 喜欢 苹果。 [SEP] 目标预测 [MASK] 的位置应该填什么词 可能答案很、最、都MoEMixture of Experts定义专家混合模型将模型分为多个专家模块根据输入动态选择专家处理核心思想“术业有专攻”不同专家擅长不同领域优势模型容量大但推理成本可控支持高效扩展专家可以独立优化示例输入分类 - 代码相关问题 → 代码专家 - 数学相关问题 → 数学专家 - 写作相关问题 → 写作专家 - 多领域问题 → 多个专家协作RLHFReinforcement Learning from Human Feedback定义基于人类反馈的强化学习通过人类标注数据训练奖励模型再用强化学习优化语言模型流程1. 收集人类反馈数据对模型输出排序 2. 训练奖励模型Reward Model 3. 使用 PPO 算法优化语言模型 4. 迭代优化核心目标让模型输出符合人类偏好七、前沿应用多模态 AI定义能够处理文本、图像、语音、视频等多种形式内容的 AI 系统能力图文理解理解图像内容并生成描述语音交互语音识别和合成视频分析理解视频内容跨模态生成从一种模态生成另一种模态示例输入一张猫的图片 输出这是一只可爱的橘猫正在沙发上睡觉 输入画一只在海边冲浪的猫 输出生成对应的图像Agent 应用定义基于智能体技术的应用具备自主决策和执行能力典型应用智能客服自动回答用户问题代码助手辅助编写代码数据分析自动完成数据处理和报告生成自动化办公自动完成日常办公任务Edge AI定义在边缘设备上运行的 AI 模型无需依赖云端服务器优势低延迟本地推理响应快隐私保护数据不离开设备离线可用无需网络连接成本低减少云端资源消耗应用场景智能手机拍照识别、语音助手智能家居智能音箱、安防摄像头自动驾驶实时感知和决策IoT 设备智能传感器、工业控制八、术语速查表术语全称核心含义AGIArtificial General Intelligence通用人工智能ASIArtificial Super Intelligence超级人工智能AIGCAI-Generated ContentAI 生成内容LLMLarge Language Model大语言模型NLPNatural Language Processing自然语言处理CVComputer Vision计算机视觉RNNRecurrent Neural Network循环神经网络LSTMLong Short-Term Memory长短期记忆网络CNNConvolutional Neural Network卷积神经网络Transformer-基于注意力的神经网络架构BERTBidirectional Encoder Representations双向预训练模型GPTGenerative Pre-trained Transformer生成式预训练模型MoEMixture of Experts专家混合模型RLHFReinforcement Learning from Human Feedback基于人类反馈的强化学习RAGRetrieval-Augmented Generation检索增强生成Embedding-文本向量化表示Token-文本最小处理单位Prompt-提示词/指令Agent-智能体MCPModel Context ProtocolAI 工具通信协议LoRALow-Rank Adaptation低秩适配微调PPOProximal Policy Optimization近端策略优化APIApplication Programming Interface应用程序接口SDKSoftware Development Kit软件开发工具包