M3DM多模态工业异常检测:教学大纲(系列开篇)

📅 2026/6/30 7:08:33
M3DM多模态工业异常检测:教学大纲(系列开篇)
目录 M3DM 多轮教学大纲第一轮工业异常检测全貌——你在解决什么问题第二轮M3DM 的前置基石——PatchCore 与记忆库第三轮M3DM 的两个“眼睛”——预训练特征提取器第四轮M3DM 总览——三大模块的数据流第五轮PFAPoint Feature Alignment点特征对齐第六轮UFFUnsupervised Feature Fusion无监督特征融合第七轮DLFDecision Layer Fusion决策层融合第八轮论文实验解读与代码复现指引结语 M3DM 多轮教学大纲本系列计划用 8 轮内容带你从零基础工业视觉一路走到能读懂、复现并迁移 M3DMMultimodal Industrial Anomaly Detection via Hybrid Fusion这篇工作。如果你是做 2.5D/深度图异常检测的同学也能从中获得把 M3DM 思想迁移到自己数据上的思路。第一轮工业异常检测全貌——你在解决什么问题什么是工业异常检测IAD和分类、检测任务的区别为什么工业场景下“只有正常样本、没有缺陷样本”→ 引出无监督/单类学习2D 异常检测的局限颜色上看不出来的缺陷怎么办3D 点云能带来什么额外信息几何形状、深度、表面起伏你的 2.5D深度图/RGB-D和 M3DM 的 3D 点云有什么关系MVTec 3D-AD 数据集介绍有哪些类别、数据格式、评价指标I-AUROC, P-AUROC, AUPRO第二轮M3DM 的前置基石——PatchCore 与记忆库因为 M3DM 的决策层直接继承了 PatchCore 的思想必须先懂这个。传统思路训练一个模型 → 有参数更新PatchCore 的“反直觉”思路不训练只记住Memory Bank记忆库是什么怎么构建怎么查Coreset Sampling核心集采样内存太大怎么办异常分数怎么算最近邻距离和你之前跑过的 PatchCore 联系起来第三轮M3DM 的两个“眼睛”——预训练特征提取器M3DM 自己不训练特征提取网络而是用别人预训练好的模型。为什么DINO自监督视觉 Transformer让模型自己学图像特征什么是自监督学习和 supervised 的区别ViTVision Transformer基础图片切成 patch 做注意力PointMAE点云掩码自编码器3D 点云的特征怎么提点云和图像的本质区别不规则、无序、稀疏MAEMasked Autoencoder思想遮住一部分重建出来预训练模型的“迁移学习”逻辑站在巨人肩膀上第四轮M3DM 总览——三大模块的数据流终于进入正题先建立一个全局地图。M3DM 整体架构图输入 → PFA → UFF → DLF → 输出为什么叫“混合融合”Hybrid Fusion直接拼接特征的问题不同模态互相干扰M3DM 的两层融合策略特征层融合UFF 决策层融合DLF数据流走一遍一张 RGB 图 一个点云 → 异常分数 异常分割图三个记忆库RGB / Point / Fused各司其职第五轮PFAPoint Feature Alignment点特征对齐解决“RGB 像素和 3D 点不在同一个坐标系”的问题。为什么需要对齐RGB 是 2D 网格点云是 3D 散点最远点采样FPS从 N 个点中选 M 个代表点点特征提取Point Transformer 怎么工作简化版特征插值反距离权重把 M 个中心点特征还原到所有点投影到 2D用相机参数把 3D 点映射到图像平面最终输出和 RGB 一样大小的 2D 特征图可以逐 patch 对比第六轮UFFUnsupervised Feature Fusion无监督特征融合M3DM 最核心的创新用对比学习让两种模态“互相交流”。什么是对比学习Contrastive Learning正样本对同一个位置的 RGB patch 和 Point patch→ 拉近负样本对不同位置的 patch→ 推远InfoNCE 损失的直观理解让相似的更相似不相似的更不相似逐片对比损失Patch-wise Contrastive Loss的设计细节MLP 投影头的作用把两种模态特征映射到同一个对比空间融合特征的生成对比学习后的特征拼接第七轮DLFDecision Layer Fusion决策层融合三个记忆库 两个分类器做最终决定。为什么要三个记忆库而不是只保留融合特征信息丢失问题融合过程中可能丢掉单模态的关键线索有些缺陷只在 RGB 可见有些只在 3D 可见每个记忆库独立做异常检测RGB 库、Point 库、Fused 库OCSVM一类支持向量机把三个库的异常分数综合起来两个 OCSVM 分别做什么D_a 负责异常评分D_s 负责异常分割最终的异常分数公式和分割公式第八轮论文实验解读与代码复现指引MVTec 3D-AD 上的定量结果和 SOTA 比怎么样消融实验Ablation Study每个模块的贡献有多大可视化结果M3DM 能检测到什么类型的缺陷官方代码结构走读GitHub: nomewang/M3DM环境配置要点DINO、PointMAE 怎么加载给你 2.5D 场景的启发M3DM 的思想怎么迁移到你的深度图数据上结语这八轮内容会从“为什么做”讲到“怎么做”最后再落到“怎么用到自己的数据上”。希望这篇大纲能帮你建立一条清晰的学习路线后续每一轮会陆续发布敬请期待。