第7课:自然语言处理:让机器理解语言

📅 2026/6/26 3:24:50
第7课:自然语言处理:让机器理解语言
一、课程信息课程主题自然语言处理让机器理解语言适合对象人工智能零基础学习者预计学习时长2小时学习方式建议先从生活中的语言歧义入手再理解机器如何把文字转成可计算的信息二、学习目标学完本课后你应该能够用通俗语言解释什么是自然语言处理。理解机器处理文字时为什么需要把文字转成数字。知道分词、文本分类、情感分析、机器翻译、问答系统、摘要生成和文本生成分别是什么。理解上下文对语言理解的重要性。能举例说明机器理解语言时可能遇到的困难。为后续学习大语言模型打下基础。三、课程导入为什么让机器理解人话很难人类每天都在使用语言。我们说话、聊天、写文章、提问题、看评论、读说明书几乎都离不开语言。但对机器来说语言并不天然容易理解。因为人类语言有很多复杂之处同一个词在不同场景中意思不同。同一句话可能有多种解释。有些表达带有反讽、暗示或情绪。有些句子需要结合前文才能理解。有些信息没有直接说出来但人类可以根据常识推断。例如苹果真甜。 苹果发布了新手机。两个句子里都有“苹果”但意思完全不同。第一个“苹果”是水果。第二个“苹果”是公司。人类很容易根据上下文判断但机器需要学习这种判断能力。自然语言处理要解决的核心问题就是如何让机器能够处理、理解和生成自然语言。四、什么是自然语言处理1. 通俗定义自然语言处理英文是 Natural Language Processing简称 NLP。可以这样理解自然语言处理是让机器处理人类语言的技术包括理解文字、分析含义、提取信息、回答问题和生成内容。这里的“自然语言”指人类日常使用的语言。例如中文英文日文法文口语表达书面表达2. NLP能做什么自然语言处理可以完成很多任务。例如把一段话分成词语判断一条评论是好评还是差评把中文翻译成英文从一篇文章中提取重点回答用户提出的问题判断一句话表达的意图根据要求生成文章、邮件或报告3. 生活中的NLP应用你可能已经经常使用NLP只是没有意识到。常见例子输入法联想搜索引擎理解关键词智能客服回答问题翻译软件语音助手理解指令文章自动摘要评论情感分析AI聊天助手文档问答系统五、机器为什么不能直接“读懂”文字1. 计算机处理的是数字人看到的是文字。计算机真正处理的是数字。所以机器要处理语言第一步通常是把文字转换成数字形式。例如我喜欢人工智能机器不能直接像人一样理解这句话。它需要把这句话转换成一组可以计算的数字表示。通俗理解人类读文字机器算数字。NLP要做的第一件事就是把文字变成机器能计算的形式。2. 文字转数字不是简单编号最简单的想法是给每个词一个编号。例如我 1 喜欢 2 人工智能 3但这种编号有问题。编号本身不能表达词语之间的含义关系。例如“喜欢”和“热爱”意思接近“猫”和“狗”都属于动物“苹果”可能是水果也可能是公司现代NLP会用更复杂的方式表示文字让机器尽量捕捉词语之间的关系和上下文含义。3. 上下文很关键同一个词在不同句子里可能含义不同。例如这个手机信号很好。 老师给了我一个信号让我先发言。第一个“信号”偏向通信。第二个“信号”偏向提示。机器要理解语言不能只看单个词还要看它周围的词和句子环境。六、分词把句子切成更小的单位1. 什么是分词分词是自然语言处理中的基础任务。它的目标是把连续的文字切分成一个个词语或更小的语言单位。中文分词尤其重要。因为中文句子中词与词之间通常没有空格。例如我喜欢人工智能可以切分成我 / 喜欢 / 人工智能2. 为什么中文分词不容易中文分词有时存在歧义。例如研究生命起源可能切成研究 / 生命 / 起源也可能在某些上下文中理解为研究生 / 命 / 起源虽然第二种通常不合理但这个例子说明机器需要结合上下文判断。3. 分词有什么用分词可以帮助机器进一步处理文本。例如提取关键词搜索匹配文本分类情感分析机器翻译统计词频4. 现代模型还一定需要传统分词吗很多现代大模型不一定使用传统意义上的中文分词。它们可能使用更小的文本片段作为处理单位。但对初学者来说理解“把句子拆成可处理单位”这个思想非常重要。七、文本分类判断一段文字属于哪一类1. 什么是文本分类文本分类是NLP中的常见任务。它要解决的问题是给一段文本分配一个或多个类别。例如新闻属于体育、财经、科技还是娱乐邮件属于垃圾邮件还是正常邮件用户问题属于退款、物流、发票还是投诉评论属于好评、中评还是差评2. 文本分类的输入和输出输入文本输出类别恭喜中奖点击链接领奖垃圾邮件明天下午三点开项目会正常邮件这款手机拍照很清晰好评物流太慢了体验很差差评3. 文本分类的应用文本分类可以用于垃圾邮件识别新闻分类客服问题分流舆情监测用户反馈整理内容审核文档自动归档4. 文本分类的难点文本分类看起来简单但有很多难点。例如这家店真不错下次再也不来了。表面上有“不错”但整体意思是负面评价。如果模型只看关键词可能判断错误。这说明文本分类需要理解上下文和语气。八、情感分析判断文字表达的态度1. 什么是情感分析情感分析是文本分类的一种常见应用。它的目标是判断一段文字表达的是正面、负面还是中性态度。例如评论情感这家餐厅味道很好服务也不错正面等了一个小时还没上菜太失望了负面今天收到商品了中性2. 情感分析有什么用情感分析常用于商品评论分析用户满意度监测舆情分析客服质量分析品牌口碑监控课程反馈分析3. 情感分析的难点情感表达并不总是直接的。例如这手机真厉害一天充三次电。字面上有“真厉害”但实际可能是在表达不满。再例如不是很差但也谈不上好。这句话不是明显负面也不是正面。模型需要理解程度、转折和语气。4. 情感分析不是读心术情感分析只能根据文本内容推断态度。如果文字信息不足模型可能判断不准。例如还行。这句话可能是中性也可能带有轻微不满具体要看上下文。九、机器翻译把一种语言转换成另一种语言1. 什么是机器翻译机器翻译是把一种语言自动转换成另一种语言。例如中文我正在学习人工智能。 英文I am learning artificial intelligence.2. 机器翻译不是逐词替换初学者容易以为翻译就是查词典。但真正的翻译远不止逐词替换。因为不同语言的语序、语法、表达习惯不同。例如中文我很想你。 英文I miss you very much.如果逐词翻译可能会很别扭。机器翻译需要理解整句话的意思再用另一种语言表达出来。3. 机器翻译的难点机器翻译难点包括一词多义语序差异文化背景专业术语省略表达口语和书面语差异例如这个方案很接地气。“接地气”不是简单翻译成“touch the ground”而是要理解它表示贴近实际、容易被大众接受。4. 机器翻译需要人工检查吗普通场景下机器翻译可以大幅提高效率。但在重要场景中仍需要人工检查。例如合同医疗资料法律文件技术文档商务谈判材料因为翻译错误可能造成严重后果。十、问答系统让机器回答问题1. 什么是问答系统问答系统的目标是根据用户提出的问题给出相关答案。例如用户退款多久能到账 系统通常会在1到3个工作日内到账具体时间以支付渠道为准。2. 问答系统的类型常见问答系统可以分成几类。类型特点例子FAQ问答从常见问题库中匹配答案客服常见问题检索式问答从文档中查找相关内容企业知识库问答生成式问答根据上下文生成回答AI聊天助手任务型问答回答后还执行操作查询订单、改地址3. 问答系统的关键能力问答系统需要理解用户问题找到相关信息判断信息是否足够组织自然语言答案必要时追问或转人工4. 问答系统的风险问答系统可能出现答非所问信息过时编造答案忽略关键限制条件对专业问题回答不准确所以在医疗、法律、金融等场景中问答系统不能替代专业人员。十一、摘要生成从长内容中提取重点1. 什么是摘要生成摘要生成的目标是把较长文本压缩成更短、更重点明确的内容。例如会议纪要文章摘要新闻摘要课程笔记报告总结合同重点提取2. 摘要有两种常见方式抽取式摘要抽取式摘要是从原文中挑选重要句子。通俗理解像用荧光笔把原文重点句划出来。生成式摘要生成式摘要是模型用自己的语言重新组织内容。通俗理解像读完文章后用自己的话概括。3. 摘要生成的难点摘要生成需要判断哪些信息最重要哪些细节可以省略原文逻辑如何压缩是否保留关键数字和条件是否改变了原意4. 摘要需要核查AI摘要可能漏掉关键信息也可能改写时改变原意。特别是合同、政策、医学资料等内容摘要只能作为辅助不能替代阅读原文。十二、文本生成让机器写出内容1. 什么是文本生成文本生成是让AI根据输入要求生成文字内容。例如写文章写邮件写广告文案写学习计划写故事写代码注释生成会议纪要生成客服回复2. 文本生成和文本分类不同文本分类是从已有类别中选择。文本生成是创造新的文字。例如文本分类这条评论是好评还是差评 文本生成请根据这条评论写一段客服回复。3. 文本生成依赖输入指令输入指令越清晰生成结果通常越接近需求。例如模糊指令帮我写个计划。更清晰的指令请为一个AI零基础学习者制定7天入门学习计划每天学习1小时内容包括学习主题、目标和练习任务语言通俗易懂。后者更容易得到可用结果。4. 文本生成的风险文本生成可能出现内容不准确编造事实风格不符合要求忽略限制条件生成空话引用不存在的来源所以生成式AI适合做初稿和辅助不适合在不检查的情况下直接用于重要决策。十三、机器如何理解上下文1. 为什么上下文重要语言的含义往往不是由单个词决定的而是由上下文共同决定的。例如他买了一个苹果。 他买了一台苹果。第一个“苹果”更可能是水果。第二个“苹果”更可能是电子产品。2. 上下文可以消除歧义再看一个例子小明看到小王拿着望远镜。这句话可能有两种理解小明用望远镜看到了小王。小明看到小王手里拿着望远镜。如果有上下文就更容易判断。例如小王正在观鸟。小明看到小王拿着望远镜。这里更可能是小王拿着望远镜。3. 上下文也包括常识人类理解语言时会自动使用常识。例如杯子从桌上掉下来碎了。我们知道碎的更可能是杯子而不是桌子。机器要理解这种句子需要学习大量语言模式和世界知识。4. 大语言模型为什么重视上下文大语言模型的一个重要能力就是根据上下文生成合理回答。它不仅看用户当前输入还会参考前面的对话内容。但上下文窗口有限模型也可能遗漏、误解或混淆信息。十四、NLP的典型处理流程一个简化的NLP流程可以表示为输入文本 → 文本清洗 → 切分或编码 → 模型处理 → 输出结果 → 人工检查或系统执行不同任务流程会有差异但基本思想类似。1. 输入文本输入可能来自用户问题评论文档邮件聊天记录搜索关键词2. 文本清洗文本清洗可能包括去除无关符号修正格式处理乱码去除重复内容识别特殊词语不是所有任务都需要复杂清洗但数据质量会影响效果。3. 切分或编码机器需要把文本转成可计算形式。可能包括分词切成更小片段转成向量生成上下文表示4. 模型处理模型根据任务进行处理。例如分类模型判断类别翻译模型生成目标语言摘要模型生成摘要问答模型生成答案5. 输出结果输出可能是类别情感倾向翻译文本摘要回答生成文章6. 人工检查或系统执行重要场景下需要人工检查。普通场景下系统可能直接执行后续动作。例如客服机器人回答问题或者邮件系统自动拦截垃圾邮件。十五、NLP和大语言模型的关系1. NLP是领域大语言模型是重要技术路线自然语言处理是一个研究和应用领域。大语言模型是当前NLP中非常重要的一类技术。可以这样理解自然语言处理 NLP └── 机器翻译、问答、摘要、文本生成等任务 └── 大语言模型是解决这些任务的重要方法之一2. 大语言模型能做很多NLP任务大语言模型可以完成问答摘要翻译改写文本分类情感分析代码生成信息抽取对话过去很多任务可能需要分别训练不同模型。现在大语言模型可以通过不同指令完成多种任务。3. 大语言模型不等于全部NLP虽然大语言模型很强但NLP不只包括大语言模型。在很多实际场景中仍可能使用关键词匹配规则系统传统机器学习模型检索系统小型分类模型大模型与知识库结合的系统实际项目会根据效果、成本、速度和可靠性选择方案。十六、案例一智能客服理解用户问题1. 问题描述用户输入我的快递怎么还没到系统需要理解用户想查询物流。2. NLP需要做什么系统可能需要理解用户意图物流查询。识别关键信息订单、快递、未到达。查询订单系统。生成回答。如果信息不足继续追问。3. 可能的回答我可以帮你查询物流状态。请提供订单号或点击当前订单列表中的对应订单。4. 难点是什么用户可能有很多表达方式我的东西到哪了 快递怎么还没送到 能查一下物流吗 订单一直没动静。这些句子表达不同但意图相似。NLP要做的是理解这些不同表达背后的共同意图。十七、案例二商品评论情感分析1. 问题描述平台希望自动分析用户评论是正面还是负面。例如手机外观很好看拍照也清晰就是电池不太耐用。2. 这句话是什么情感这句话不是简单正面或负面。它包含正面外观好看、拍照清晰负面电池不耐用如果只做整体判断可能是中性或轻微正面。如果做更细分析可以分别判断不同方面。3. 更细的情感分析方面情感外观正面拍照正面电池负面这种分析可以帮助企业知道产品哪些方面需要改进。4. 难点是什么评论中可能有转折讽刺省略口语错别字表情符号这些都会影响模型判断。十八、案例三文章自动摘要1. 问题描述用户上传一篇长文章希望AI提炼重点。2. NLP需要做什么模型需要识别主题找出核心观点保留关键事实删除重复和次要信息用简洁语言组织摘要3. 摘要的价值摘要可以帮助用户快速了解文章内容提高阅读效率做会议纪要整理学习笔记提取报告重点4. 摘要的风险摘要可能漏掉限制条件改变原文语气错误概括结论丢失关键数字把不确定内容说成确定内容所以重要文档摘要需要回看原文确认。十九、案例四搜索引擎理解用户意图1. 问题描述用户搜索苹果发布会时间搜索引擎需要知道用户大概率想找的是苹果公司的发布会而不是水果。2. NLP需要做什么搜索系统需要理解查询词中的关键词用户可能意图当前热门事件相关网页内容哪些结果更符合需求3. 为什么不是简单匹配如果只做关键词匹配可能返回很多包含“苹果”和“发布会”的内容。但用户真正想要的可能是最新发布会时间发布会直播入口发布产品信息官方公告搜索系统需要根据上下文和用户意图排序结果。二十、NLP常见难点总结1. 一词多义同一个词有多个含义。例如苹果、信号、窗口、语言、模型2. 句子歧义同一句话可以有多种解释。例如小明看见小王拿着望远镜。3. 上下文依赖有些话必须结合前文理解。例如这个方案比上一个好多了但还不能直接上线。需要知道“上一个方案”是什么。4. 反讽和隐含情绪例如这服务真是太贴心了等了两个小时终于有人回复。字面有“贴心”实际是负面。5. 常识推理例如雨太大了我没带伞只好取消出门。人类知道下雨和不出门之间的关系。6. 专业术语不同领域有专门表达。例如医疗术语法律术语金融术语编程术语模型如果缺少领域知识可能理解不准确。二十一、NLP应用中的风险和边界1. 理解错误模型可能误解用户问题。例如用户想投诉物流系统却以为用户要查询订单。2. 生成错误模型可能生成看似合理但实际错误的答案。这在大语言模型中也叫幻觉问题。3. 数据偏见如果训练数据中存在偏见模型可能在语言理解或生成中体现偏见。4. 隐私风险文本中可能包含个人隐私。例如姓名手机号地址身份证号订单信息病历内容使用AI处理文本时要注意隐私和合规。5. 不能替代专业判断NLP可以辅助阅读、总结、翻译和问答。但在法律、医疗、金融等场景中不能直接替代专业人员判断。二十二、如何更好地使用NLP工具1. 提供清晰任务不要只说帮我处理一下这段文字。可以更明确请把下面这段会议记录整理成三部分结论、待办事项、风险点。语言简洁每条不超过30字。2. 提供背景信息如果任务需要上下文要主动提供背景。例如目标读者是谁使用场景是什么希望输出什么格式是否有字数限制哪些信息不能遗漏3. 要求模型说明不确定性可以要求AI如果信息不足请指出缺少哪些信息不要编造。这有助于减少错误输出。4. 重要内容要核查对于重要内容要回到原文、资料来源或专业人员处核查。AI适合提升效率但不能替你承担最终判断。二十三、课堂活动寻找生活中的NLP应用活动目标识别日常生活中的自然语言处理应用。活动任务请找出3个你用过的NLP应用并填写表格。应用使用场景NLP能力例如翻译软件中文翻译成英文机器翻译思考问题这些应用是否真的理解了你的意图有没有出现过理解错误哪些场景下你会选择人工确认二十四、课堂活动分析一句有歧义的话活动目标理解上下文对语言理解的重要性。活动任务请写出一句有歧义的话并说明它可能有哪几种理解。示例小明看见小王拿着望远镜。可能理解小明用望远镜看见了小王。小明看见小王手里拿着望远镜。填写模板内容我的回答有歧义的句子理解方式1理解方式2需要什么上下文才能判断机器为什么可能理解错二十五、课堂活动设计一个智能客服意图识别活动目标理解文本分类和意图识别如何应用在真实场景中。活动任务请为一个电商智能客服设计几个用户意图类别。可选类别查询物流申请退款修改地址咨询发票投诉商品转人工客服填写模板用户说法意图类别我的快递到哪了查询物流思考问题同一个意图是否有多种表达方式有些句子是否可能同时包含多个意图哪些情况应该转人工客服二十六、本课小结本课我们学习了自然语言处理的基础内容。需要重点记住自然语言处理简称NLP是让机器处理和生成语言的技术。机器不能直接像人一样读懂文字需要把文字转成数字形式。分词是把连续文本切成更小语言单位的过程。文本分类用于判断一段文字属于哪一类。情感分析用于判断文字表达的态度。机器翻译不是逐词替换而是理解含义后转换语言。问答系统需要理解问题、查找信息并组织答案。摘要生成可以提取长文本重点但重要内容仍需核查原文。文本生成可以提升写作效率但可能产生错误或编造内容。上下文对语言理解非常关键同一个词在不同场景中可能含义不同。大语言模型是当前NLP中的重要技术但不等于全部NLP。NLP工具适合辅助理解和生成不能在高风险场景中替代专业判断。二十七、课后练习练习1寻找NLP应用请找出生活中的3个NLP应用并填写表格。NLP应用使用场景对应能力可参考能力分词文本分类情感分析机器翻译问答系统摘要生成文本生成练习2解释上下文请回答为什么“苹果真甜”和“苹果发布了新手机”中的“苹果”含义不同机器如果只看单个词可能会出现什么问题上下文如何帮助机器判断词语含义练习3判断NLP任务类型请判断下面任务属于哪类NLP能力。任务NLP能力把中文文章翻译成英文判断评论是好评还是差评从会议记录中整理待办事项根据用户问题回答退款规则判断邮件是否为垃圾邮件根据要求写一封邮件练习4分析一句有歧义的话请写出一句有歧义的话并说明它可能有哪些不同理解需要哪些上下文才能判断正确含义机器为什么可能理解错练习5设计一个智能客服分类任务请设计一个智能客服文本分类任务。问题我的回答使用场景用户可能输入什么需要分类成哪些意图需要哪些训练数据哪些情况容易误判哪些情况应该转人工二十八、参考答案与提示练习1参考提示NLP应用使用场景对应能力翻译软件中文翻译成英文机器翻译智能客服回答售后问题问答系统 / 文本分类输入法联想预测下一个词文本生成 / 语言建模文章总结工具提取长文重点摘要生成评论分析系统判断用户态度情感分析练习2参考提示“苹果真甜”中的苹果更可能是水果因为“甜”通常描述食物味道。“苹果发布了新手机”中的苹果更可能是公司因为“发布新手机”是企业行为。如果机器只看“苹果”这个词就无法判断具体含义。上下文提供了周围词语和场景线索帮助模型判断真正含义。练习3参考答案任务NLP能力把中文文章翻译成英文机器翻译判断评论是好评还是差评情感分析 / 文本分类从会议记录中整理待办事项信息提取 / 摘要生成根据用户问题回答退款规则问答系统判断邮件是否为垃圾邮件文本分类根据要求写一封邮件文本生成练习4参考提示示例句子我看见她拿着相机。可能理解我拿着相机看见了她。我看见她手里拿着相机。需要上下文判断谁拿着相机。机器可能理解错是因为句子结构允许多种解释。练习5参考提示智能客服文本分类任务可以包括查询物流申请退款修改地址咨询发票商品质量投诉转人工客服需要训练数据历史用户问题对应意图标签标准回复真实客服处理结果容易误判的情况一个句子包含多个意图用户表达很口语化用户情绪强烈但问题不明确信息缺失应该转人工的情况涉及投诉升级涉及金额争议用户多次表示不满意系统无法理解问题规则外特殊情况二十九、下一课预告下一课我们将学习计算机视觉让机器“看懂”世界你将了解什么是计算机视觉图像分类、目标检测和图像分割有什么区别人脸识别、车牌识别、医学影像、自动驾驶中如何使用视觉AI视觉AI有哪些风险和边界如果说本课讲的是让机器理解语言那么下一课会进入让机器理解图像和视觉世界的领域。