NeurIPS 2024 | 工业视觉异常检测前沿方法与应用场景解析

张开发

• 2026/6/6 23:01:17 • 15 分钟阅读

分享文章

1. 工业视觉异常检测从“找茬”到“智能预警”的进化大家好我是老张在工业AI这个行当里摸爬滚打了十几年从最早的简单图像处理到现在的复杂大模型算是亲眼看着“机器视觉”怎么一步步变成“工业慧眼”的。今天想和大家聊聊一个特别有意思也特别“值钱”的话题——工业视觉异常检测。说白了就是让机器像经验最丰富的老师傅一样在生产线上“一眼”就能看出产品哪里有毛病。你可能会想这不就是质检吗对但也不全对。传统的机器视觉质检很多时候是“教条主义”。我们得提前告诉机器这里应该有个螺丝尺寸是多少那里的颜色应该是这样的差一点都不行。这种方法对付标准化的、缺陷形态固定的产品还行比如检测瓶盖有没有拧紧、二维码印刷是否清晰。但一旦遇到复杂情况比如布匹上随机出现的污渍、金属表面细微的划痕、或者装配线上某个零件根本没出现过的错装方式传统方法就傻眼了。它没见过这种“异常”所以要么漏检要么误报搞得产线鸡飞狗跳。这正是NeurIPS 2024上那些顶尖研究正在全力攻克的核心难题。现在的工业场景对异常检测的要求越来越高小样本只有几个正常样品就要能判断异常、零样本面对一个全新的产品类别模型没训练过也要能上手、跨类别泛化训练时用的是螺丝上线后检测齿轮也得准。这要求模型必须真正“理解”什么是“正常”从而识别出任何“不正常”而不是死记硬背几种缺陷图案。接下来我就结合NeurIPS 2024上的几篇重磅论文带大家看看前沿方法是怎么解决这些实际痛点的以及我们怎么把这些“黑科技”用起来。2. 核心突破让模型学会“思考”而非“记忆”这一届NeurIPS在异常检测上的工作我感觉一个核心趋势是让模型变得更“通用”和“智能”。不再是针对某个特定缺陷设计一个特定算法而是赋予模型一种更底层的认知和推理能力。这主要得益于几类关键技术的融合与创新。2.1 状态空间模型SSM的入场MambaAD如果你关注AI前沿肯定听说过Mamba。这个在NLP领域掀起了效率革命的状态空间模型State Space Model, SSM这次被浙江大学和腾讯优图实验室联手引入了视觉异常检测领域提出了MambaAD。为什么说这是个大事儿我们得先看看之前的模型有什么“不爽”的地方。卷积神经网络CNN是个好同志局部特征抓得准但“视野”有点窄理解整张图片的全局上下文关系比较吃力。Transformer比如ViT视野是广了自注意力机制能让任意两个像素点“对话”但计算量是图片尺寸的平方级增长。一张高分辨率工业图像进去算力成本和推理速度都让人头疼。MambaAD的思路很巧妙它用一个预训练好的编码器比如ResNet先把图片变成特征图然后关键来了——它用一个基于Mamba的解码器来重构这些特征。这个解码器里有个核心模块叫“多尺度局部增强状态空间LSS模块”。我拆开给你讲讲状态空间模型SSM核心你可以把它想象成一个非常高效的“信息流处理器”。它像扫描文档一样按一定顺序比如希尔伯特曲线、蛇形顺序把二维的特征图“拉直”成一维序列然后用状态方程来建模序列中长距离的依赖关系。关键是这个过程的计算复杂度是线性的这意味着处理大图又快又省资源。局部增强光有全局视野还不够缺陷往往是很细微的局部变异。所以LSS模块里还并联了多核卷积操作专门捕捉局部细节信息。混合扫描编码这是MambaAD的一个创新点。它不只是按一个方向扫描而是用五种扫描方法光栅、希尔伯特等和八个方向把特征图编码成多个序列。这就好比我们从上下左右、里外多个角度去观察一个物体确保不遗漏任何角度的信息。最后这些从不同“视角”提取的特征被融合起来共同判断异常。我实测过这类思路的模型在像MVTec AD这样的标准工业缺陷数据集上效果确实惊艳。它不仅能准确地定位出细小的划痕、污点对于结构性异常比如某个部件缺失或错位的检测也非常稳定。更重要的是它的推理速度比同精度的Transformer模型快不少在追求效率的产线上这就是真金白银的效益。MambaAD为异常检测提供了一个新的强大基础架构证明了SSM在视觉任务上同样大有可为。2.2 元学习与提示学习MetaUAS的“一通百通”另一篇让我拍案叫绝的工作是MetaUAS。它解决的是一个更极致的场景给定一张正常的图片作为“提示”Prompt模型就要能分割出查询图片中任何未知的异常而且不需要在目标数据上进行任何训练或微调。这简直就是“零样本异常分割”的终极形态。这听起来有点“玄学”但它的核心思想非常聪明——将异常检测问题转化为变化检测问题。想想看我们判断一个东西是否异常本质上是不是在找它和“正常样板”之间的“差异点”MetaUAS正是利用了这一点。它不再依赖CLIP这类视觉-语言模型去理解“缺陷”、“裂纹”这些文本概念而是纯粹在视觉层面做文章。它的训练数据很有创意不是用真实的工业缺陷数据集而是利用现有的通用图像数据集比如COCO通过图像处理技术大规模生成“合成图像对”。每一对图像里都包含同一个物体但在后者中物体的某些局部区域被有意改变了模拟了形状、纹理的变化。模型的任务就是学习找出这些“变化区域”。在这个过程中模型通过元学习掌握了一个核心能力如何根据一个“正常提示”图像去定位另一张图像中与之不同的地方。为了应对提示图像和查询图像之间可能存在的视角、光照等几何变化论文还提出了一个“软特征对齐模块”确保比较是在对齐的特征空间里进行的。实际应用时你只需要提供一张该产线的黄金标准样品图完美无瑕的产品作为提示模型就能直接用于检测线上产品的任何异常。我尝试用这个思路在一些新的、没有训练数据的元器件上进行测试对于表面脏污、划伤这类局部异常分割效果相当不错。它摆脱了对缺陷数据集的依赖和对语言描述的绑定提供了一种更通用、更灵活的解决方案特别适合产品迭代快、缺陷形态多样的柔性制造场景。2.3 学习“残差”ResAD的通用化之道如果说MetaUAS是从“任务定义”上取巧那么ResAD则是从“特征表示”的层面直击要害。它的目标很明确训练一个模型能直接泛化到检测从未见过的新类别的异常即“类通用异常检测”。为什么传统的模型换个类别就不灵了因为不同类别的“正常”特征本身差异就巨大。一个正常螺丝的图像特征和一个正常齿轮的图像特征在特征空间里可能离得很远。模型在螺丝数据上学到的“正常边界”直接套用到齿轮数据上很可能把整个齿轮都判成异常。ResAD的解决方案非常简洁优雅我们不直接学习“正常特征”的分布而是学习“正常残差特征”的分布。什么是残差特征可以理解为图片特征中剔除掉那些强烈的、类别特定的信息后剩下的“背景噪声”或“共性模式”。比如对于工业品可能是材质纹理的均匀性、表面光泽的连续性等。它的框架包含三步特征转换器把预训练模型提取的初始特征转换到残差特征空间。特征约束器一个很浅的神经网络把正常样本的残差特征约束到一个超球面空间里。这一步是为了让所有类别的正常残差特征都分布得紧凑且一致进一步减少类间差异。特征分布估计器估计这个超球面内正常残差特征的分布。在推理时计算新样本残差特征到这个分布的距离距离远的就是异常。这个方法妙就妙在不同类别的物体其“异常”所表现的“残差异常”可能是相似的比如都是局部突变。因此在残差特征空间里模型更容易学到跨类别的通用异常模式。我在一些跨产品线的实验中应用过类似思想确实发现模型对于未知类别的新产品能保持一个不错的基线检测性能大大降低了为每一个新产品类别重新收集数据、训练模型的成本。ResAD为我们提供了一条通往更通用、更实用异常检测系统的清晰路径。3. 深入工业场景方法如何解决实际痛点光讲技术原理不够过瘾我们得落到具体的工业场景里看看这些前沿方法到底是怎么“干活”的。3.1 表面缺陷检测从“明察秋毫”到“理解纹理”这是工业视觉最经典的应用。比如液晶面板的斑点、电池片的隐裂、纺织品的破洞、钢铁表面的锈蚀。传统方法依赖精心设计的特征提取如灰度、纹理、边缘和阈值分割对于对比度低的缺陷、复杂背景下的缺陷非常无力。现在像MambaAD这样的方法其强大的长距离建模能力可以让模型充分理解整张图像的正常纹理模式和全局结构。当出现一个局部缺陷时它破坏的不仅是局部像素更是整个纹理场的连续性。MambaAD的SSM模块能够敏锐地捕捉到这种全局一致性的破坏。例如在检测织物时模型不是只盯着一个点看有没有线头而是能理解经纬线的整体编织规律任何违反这个规律的断线、跳线都无所遁形。而MetaUAS的思路在这里也能大放异彩。对于定制化、小批量的高端面料可能根本没有足够的缺陷样本。这时只需要一块完美的面料样本作为“提示”产线上流过的每一块布匹都与这个“黄金样本”进行比对任何微小的色差、纹理不均都会被作为“变化”检测出来。这种方法极大地降低了对缺陷数据积累的依赖。3.2 装配完整性检查理解“关系”与“存在”在电子组装、汽车零部件装配线上需要检查元件是否漏装、错装、歪斜或者焊点是否合格。这不仅仅是识别物体更是要理解物体之间的空间关系和逻辑关系。传统方法需要为每一个正确的装配姿态设定严格的模板和容差范围灵活性差。基于深度学习的检测方法则对遮挡、光照变化比较敏感。MambaAD这类模型在处理这类问题时其混合扫描机制能帮助模型从多个方向理解元件的布局。更重要的是像ResAD这种学习残差分布的方法在这里有独特的优势。我们可以把一张正确的装配图作为“正常”模型学习的是所有正确装配图中各元件位置、角度关系的“允许波动范围”即残差分布。当一张新的装配图进来如果某个螺丝完全没拧漏装或者电容焊到了错误的位置错装这种错误会导致该区域的“空间关系残差”严重偏离正常分布从而被快速定位。这种方法比单纯检测“有没有某个物体”要更鲁棒因为它检测的是“关系是否正确”。3.3 时序数据中的异常预警从单帧到序列很多工业过程异常是体现在时序上的比如机床主轴的振动信号突然出现特定频段的能量升高或者化工反应釜的温度压力曲线偏离了正常工艺窗口。这要求模型不仅能分析单张图片或单个时间点的数据还要能理解时间序列的模式。虽然NeurIPS 2024这几篇主要针对图像但其思想可以延伸到时序数据。例如状态空间模型SSM本身就是处理序列的利器。我们可以将一段时间窗口内的传感器读数振动、温度、电流视为一个序列用Mamba来建模其正常状态下的动态模式。任何偏离这个动态模式的波动无论是缓变还是突变都能被检测出来。论文AR-Pro也展示了其反事实解释框架在时间序列异常如网络攻击检测、水质异常上的有效性。这种时序异常检测的价值在于预测性维护。它能在设备真正故障、产品批量报废之前就发现早期征兆实现从“事后检测”到“事前预警”的跨越。这对于保障连续生产、避免重大损失至关重要。4. 实战指南如何将前沿方法落地你的生产线看了这么多厉害的方法是不是心痒痒想试试别急直接照搬论文代码可能会踩坑。结合我的经验给大家梳理一条相对稳妥的落地路径。第一步问题定义与数据准备这是最基础也最重要的一步。先别急着选模型要明确你的具体需求检测类型是定位分割Pixel-level还是图像分类Image-level需不需要给出异常分数数据情况有多少正常样本有没有异常样本异常样本有多少种、标注是否精细性能要求需要多快的推理速度FPS准确率和召回率哪个更重要能接受多少误报数据方面尽可能收集覆盖各种正常工况的图片不同光照、角度、批次原材料。如果能有少量异常样本最好没有的话就要优先考虑无监督或零样本方法。第二步方法选型与快速验证根据你的数据和需求匹配技术方案如果计算资源充足追求极致精度且有大量正常数据可以尝试基于MambaAD架构进行微调或从头训练。它的潜力大但对数据量和算力要求也高。如果缺乏异常数据且产品种类多、变化快MetaUAS的提示学习路线非常值得尝试。准备一张“完美样品”图就能快速验证基础效果。如果需要开发一个能检测多种产品的通用平台ResAD的类泛化思路是很好的起点。你可以先用多个已有产品类别的数据训练一个通用残差模型再应用到新产品上。建议先用小规模数据在公开数据集如MVTec AD或自己裁剪的小数据集上快速跑通论文的开源代码感受一下效果和速度。第三步模型优化与部署实验室效果好不等于产线上能跑。这里有几个关键点轻量化工业场景的工控机或边缘设备算力有限。可能需要将模型蒸馏、剪枝或者选择更轻量的骨干网络。鲁棒性提升产线环境复杂。要通过数据增强模拟光照变化、轻微抖动、噪声来提升模型稳定性。集成学习多个模型投票也能有效降低误报。推理引擎优化使用TensorRT、OpenVINO等工具对模型进行转换和优化充分利用硬件加速。设计反馈闭环系统上线后肯定会遇到误检和漏检。需要建立一个便捷的通道让操作员能快速反馈错误样本用于后续模型的迭代优化。这个闭环是系统越用越聪明的关键。第四步效果评估与价值衡量不要只看学术指标如AUROC, mIoU要建立与业务强相关的评估体系检出率实际发生的缺陷系统抓住了多少误报率每小时/每千件产品误报警多少次误报会导致不必要的停机成本很高。效率提升相比人工质检速度提升了多少释放了多少人力质量提升早期拦截缺陷降低了多少售后成本和品牌损失把这些价值算清楚才能让技术投入获得真正的回报。5. 未来展望更智能、更自主的工业视觉NeurIPS 2024的这些工作让我们看到了工业视觉异常检测正在从“模式匹配”走向“认知理解”。未来的系统我认为会朝着这几个方向发展多模态融合不仅仅是视觉图像结合红外热成像、高光谱、3D点云、声音、振动信号进行综合判断。例如检测焊接质量同时看视觉焊道和热成像的温度分布会更准确。可解释性与决策支持像AR-Pro这样的工作开了一个好头。未来的系统不仅要说“这里异常”还要能解释“为什么异常”、“如果正常应该是什么样”。这能极大地帮助工艺工程师定位问题根因而不是仅仅停留在“发现问题”层面。终身学习与自适应生产线上的设备会磨损原材料会有波动产品会更新换代。异常检测系统需要具备在线学习、自适应调整的能力在不遗忘旧知识的前提下持续适应新的正常模式。与机器人闭环检测到异常后自动引导机器人进行分拣、标记甚至初步维修如点胶补焊实现真正的“检测-执行”一体化。这条路还很长但每一次像NeurIPS上这样的突破都让我们离那个更智能、更柔性的“未来工厂”更近一步。作为一线的技术人最兴奋的莫过于看到这些前沿的学术思想能在真实的车间里响起成功的报警声或者更理想的是因为预防了问题而一直保持安静。如果你正在考虑将AI视觉引入你的质检环节我的建议是从小处着手选择一个痛点明确、价值易衡量的场景快速试点用效果赢得信任再逐步扩大战果。毕竟再先进的算法最终的价值都要在生产的节拍声中体现出来。