CLIP-LMFA: Few-Shot Anomaly Detection via Large Language Model-Driven Hybrid Prompts and Multi-Scale Adaptive Fusion

Title:CLIP-LMFA: Few-Shot Anomaly Detection via Large Language Model-Driven Hybrid Prompts and Multi-Scale Adaptive Fusion

Authors:Shengchang Wang, Yue Han, Yanjun Qin, Yongke Li, Zhaoru Guo, Feng Yan, Lei Su, Haoxiang Huang, Tiquan Gu and Panpan Zheng

Conference:PRICAI 2025

Tags:Few-shot, Industrial anomaly detection and Large language-vision model

Abstract:

工业异常检测对于保障生产质量和作业安全起着关键作用。尽管大规模语言视觉模型因其在少样本场景下的优势而逐渐应用于工业异常检测领域，但其语义泛化能力有限且缺乏细粒度空间敏感性，阻碍了其在现实世界和高精度工业环境中的部署。为了应对这些挑战，我们提出了一种基于CLIP的CLIP-LMFA框架，用于进行少样本异常检测。我们引入了一种由大型语言模型（LLM）驱动的混合文本提示策略，以增强语义辨别力，同时降低手动设计成本。我们设计了一种多尺度局部自适应融合（MFEAF）编码器，可以联合捕获全局语义和局部细粒度异常，实现像素级异常分割。在没有额外的微调或再训练的情况下，CLIP-LMFA在基准数据集上取得了显著的性能改进，在MVTec-AD和Brain数据集的I-AUROC测试中分别比基线高出1.3%和4.5%，证明了其在实际工业应用中的有效性和实用性。我们的代码可在以下网址获得：https://github.com/PRICAI25/CLIP-LMFA。