大模型评测与AI产品质量保障：第6篇 AI 的六块技术拼图

📅 2026/7/1 1:47:46

IT策士 10余年一线大厂经验专注大模型测试、AI产品质量保障与职场进阶。我会在各个平台持续发布最新文章助你少走弯路。前面几篇我们熟悉了各大模型也搞清了它们怎么训练出来的。但“大模型”并不是凭空出现的它背后是一整个技术家族的支撑。这篇文章带你拆解AI的六块核心拼图——自然语言处理、计算机视觉、语音、知识图谱、具身智能、多模态看它们各自解决什么问题以及如何与大模型融合。对于测试工程师来说这六块拼图就是你未来测试用例的分类目录。一、六块拼图全景把AI体系想象成一个人自然语言处理(NLP)→ 读和写计算机视觉(CV)→ 看语音 → 听和说知识图谱 → 记忆和联想具身智能 → 身体和行动多模态 → 感官融合现代大模型正在把这六块拼图逐渐统一到一个模型中。下面是每块拼图的技术本质、与大模型的关系、以及对应的测试维度。二、自然语言处理 (NLP)让机器读懂文字2.1 核心任务NLP 是 AI 最成熟的领域核心任务包括任务说明典型测试用例文本分类情感分析、垃圾邮件检测、意图识别“这个产品太棒了” → 正面命名实体识别提取人名、地名、机构名“乔布斯创立了苹果公司” → 乔布斯(人)、苹果公司(机构)机器翻译中英互译等“Hello” → “你好”文本摘要长文压缩3000字文章 → 100字摘要问答系统从文本中找答案“谁发明了电话” → “贝尔”2.2 与大模型的融合大模型如GPT-5.4、DeepSeek-V4本身就是一个超级NLP引擎上述所有任务都可以用同一个模型完成不再需要为每个任务单独训练一个模型。from openaiimportOpenAI clientOpenAI(api_keyyour-api-key,base_urlhttps://api.deepseek.com)# NLP多任务统一测试tasks{情感分析:判断以下评论的情感正面/负面等待时间太长但菜品很好吃,实体识别:提取以下文本中的人名和地名马云在杭州创立了阿里巴巴,翻译:将以下英文翻译成中文The quick brown fox jumps over the lazy dog,摘要:用一句话总结以下段落人工智能经历了三次浪潮从符号主义到连接主义再到深度学习。每一次浪潮都伴随着技术的突破和应用的爆发。}fortask_name, promptintasks.items(): responseclient.chat.completions.create(modeldeepseek-v4-flash,messages[{role:user,content:prompt}],temperature0.0)print(f {task_name} )print(response.choices[0].message.content)print()情感分析该评论包含正面和负面两方面情感整体为中性偏正面。实体识别人名马云地名杭州翻译那只敏捷的棕色狐狸跳过了那只懒狗。摘要人工智能经历了符号主义、连接主义和深度学习三次浪潮每次浪潮都伴随着技术突破和应用爆发。2.3 NLP 测试重点测试维度具体内容多语言能力中、英、日、小语种等翻译和理解质量长文本理解超过4K token后的信息提取准确率歧义消解“我看见她的 duck” — 是鸭子还是弯腰指令遵循严格按格式、字数、角色要求输出三、计算机视觉 (CV)让机器看懂世界3.1 核心任务任务说明典型应用图像分类判断图片里是什么“这是一只猫”目标检测框出图中的物体位置自动驾驶检测行人、车辆图像分割像素级区分前景和背景医学影像器官分割OCR图片中的文字识别身份证识别、票据录入图像生成根据文字描述生成图片文生图DALL·E、Midjourney3.2 与大模型的融合多模态大模型如GPT-5.4、Gemini 3.5可以直接接受图片输入完成视觉问答importbase64# 读取图片并转为base64with open(test_image.jpg,rb)as f: image_base64base64.b64encode(f.read()).decode()responseclient.chat.completions.create(modeldeepseek-v4-flash,# 支持图片输入messages[{role:user,content:[{type:text,text:这张图片里有什么请详细描述。},{type:image_url,image_url:{url:fdata:image/jpeg;base64,{image_base64}}}]}])print(response.choices[0].message.content)这张图片展示了一张办公桌桌面上有一台笔记本电脑、一个咖啡杯和一盆绿植。背景是窗户可以看到外面的阳光和建筑物。3.3 CV 测试重点测试维度具体内容细粒度识别区分哈士奇和阿拉斯加而非只认“狗”遮挡/模糊鲁棒性物体被部分遮挡时能否识别对抗样本加微小噪声后是否误判熊猫→长臂猿多语言OCR中英文混排、手写体识别四、语音让机器听见和说出4.1 核心任务任务说明测试点ASR语音识别音频转文字准确率、方言、多人对话TTS语音合成文字转语音自然度、情感表达声纹识别识别说话人身份安全性、防伪造情感识别从语调判断情绪生气/开心/悲伤的区分4.2 与大模型的融合GPT-5.4 和 Gemini 3.5 的语音模式实现了端到端的语音对话——你直接说话它直接回答中间不需要转文字。这对测试意味着你需要同时测试语音识别、语义理解、语音合成三个环节。4.3 语音测试重点环境噪声鲁棒性咖啡厅、街道等嘈杂环境下的识别率方言和口音四川话、粤语、印度英语等多人对话分离会议场景区分不同说话人语音对抗用超声波或人听不见的噪声干扰识别五、知识图谱给 AI 装上结构化记忆5.1 什么是知识图谱知识图谱是以“实体-关系-实体”三元组形式组织的知识网络(乔布斯)--[创立]--(苹果公司)(苹果公司)--[总部位于]--(加利福尼亚州)(乔布斯)--[出生地]--(旧金山)大模型虽然“记得”很多知识但那是隐式的、概率性的。知识图谱提供的是显式的、确定性的、可溯源的知识。5.2 知识图谱大模型 RAG 的基石在企业级AI产品中知识图谱是大模型“避免幻觉”的关键用户提问 → 知识图谱检索 → 获取精确事实 → 大模型组织语言回答这就是RAG检索增强生成的核心思路后面会有专门篇章深入。5.3 知识图谱测试重点测试维度说明实体链接准确率模型能否把“苹果”正确关联到“苹果公司”而非“水果”关系抽取完整性从“张三和李四在北京开会”中抽取“张三-位于-北京”等时效性知识图谱是否及时更新如公司CEO变更推理链A→B→C 多跳推理的正确性六、具身智能给 AI 一个身体6.1 什么是具身智能具身智能是指让AI在物理世界中通过机器人身体与环境交互完成感知、决策和行动。例如自动驾驶感知路况 → 决策路径 → 控制方向盘仓储机器人识别货架 → 规划路线 → 抓取货物手术机器人分析影像 → 规划切口 → 操作机械臂6.2 与大模型的关系大模型充当“大脑”机器人硬件是“身体”摄像头/传感器 → 大模型理解环境 → 生成行动计划 → 执行器动作6.3 具身智能测试重点这是测试挑战最大的领域因为涉及物理世界测试维度说明仿真环境测试在虚拟环境如Isaac Sim中模拟降低成本安全边界测试机器人碰到障碍物时是否立即停止长序列任务多步骤任务的完成率拿杯子→倒水→递给用户现实迁移仿真环境训练后在真实世界的效果七、多模态把五感融合7.1 什么是多模态多模态不是单独的“一块拼图”而是把前面所有的拼图对齐到同一个语义空间。真正的多模态模型可以图文互搜用文字搜图片用图片搜文字视频理解看一段视频总结发生了什么跨模态推理看到一道菜的图片推理出菜谱步骤7.2 多模态对齐的原理文本:一只黄色的猫坐在沙发上图片:[猫的图片]↓ 对齐训练[文本向量]≈[图片向量]在语义空间里距离很近这样模型就能在“猫”这个词和猫的图片之间建立连接。7.3 多模态测试重点测试维度测试用例示例跨模态一致性图片是猫模型说是狗 → 幻觉模态缺失鲁棒性上传一张纯黑图片看模型是否识别为异常时序理解看视频回答“谁先进入房间”多模态注入攻击在图片中嵌入不可见文字操纵模型行为八、六块拼图的协同一个完整的测试场景假设你在测试一款智能客服机器人它集成了上述所有能力。一个完整的用户场景可能是1. 用户上传一张产品损坏的照片CV2. 用语音描述问题语音→ASR→文字3. 客服机器人查询知识库知识图谱RAG4. 给出解决方案NLP 生成文本5. 用亲切的声音朗读回复TTS6. 如果用户同意调度维修机器人上门具身智能测试这个场景你需要设计覆盖每一步的测试用例并验证跨模态信息传递的正确性。九、动手试试验证多模态能力用 DeepSeek-V4支持图片输入做一个小实验# 准备两张测试图片一张清晰的猫一张故意模糊的猫# 然后用以下代码测试prompts[这张图片里有什么动物,这只动物的颜色是什么,图片中还有哪些物体]fori, promptinenumerate(prompts): responseclient.chat.completions.create(modeldeepseek-v4-flash,messages[{role:user,content:[{type:text,text:prompt},{type:image_url,image_url:{url:https://example.com/cat.jpg}}]}],temperature0.0)print(fQ{i1}: {prompt})print(fA: {response.choices[0].message.content})print()观察清晰图片下模型能否准确描述如果换成模糊图片模型是会猜错还是诚实地说“无法判断”本文小结AI 的六块技术拼图——NLP、CV、语音、知识图谱、具身智能、多模态——构成了大模型能力的完整图谱。每一块都有自己的核心任务和测试维度。对于测试工程师这张图谱就是你的“测试用例分类地图”当你拿到一个AI产品先拆解它用到了哪些拼图然后对照每块拼图的测试重点设计用例。下一篇预告《机器学习的三种学习范式》——有监督、无监督、强化学习它们如何支撑大模型的预训练和微调各有什么测试陷阱。想了解更多还可以去各个平台搜索「IT策士」一起升级 AI 测试思维

新闻详情

相关阅读

探索开源四足机器人：OpenDog项目的技术解密与实战突破

Spring Boot 2 升级 Spring Boot 3 踩坑实战：MyBatis-Plus、MySQL、Redis 迁移总结

基于STM32单片机的教室智能灯控制系统照明人数ARM定制灯光敏红外(设计源文件+万字报告+讲解)（支持资料、图片参考_降重降ai）

无人机合速度和航捷转速度分量

AI时代下的前端求生之路

SIM 卡克隆工具指南：安全移动 SIM 卡数据

VisualCppRedist AIO：终极Windows运行库一体化智能管理解决方案深度解析

Antigravity Manager：把多个 AI 账号管明白的桌面工具

Element Plus 级联选择器实战：仿学科网教材多级选择的完整方案

FAE放射组学分析工具：医学影像特征探索的完整解决方案

基于Dify与DeepSeek构建私有知识库问答系统实战指南

餐饮老板必看：扫码点餐小程序3步搞定，别再让顾客干等了！

管理者的六个层次

华为OD机试2025C卷-座位调整[100分]（ Java _ Python3 _ C++ _ C语言 _ JsNode _ Go）实现100%通过率

CrabCode v1.0.7与v1.0.8 更新速览！

FAE放射组学分析工具：医学影像特征探索的完整解决方案

基于Dify与DeepSeek构建私有知识库问答系统实战指南

餐饮老板必看：扫码点餐小程序3步搞定，别再让顾客干等了！