TPAMI (IEEE Transactions on Pattern Analysis and Machine Intelligence) 是计算机视觉与模式识别领域公认的顶级学术期刊之一,由 IEEE 主办,在中国计算机学会认定的人工智能领域四大 A 类期刊中排名第一。根据最新统计数据,TPAMI 影响因子达到 18.6,位列计算机科学与人工智能分区 Q1 前列,CiteScore 约为 35,h5-index 达 217。自 1978 年创刊以来,期刊始终引领模式分析、机器学习与计算机视觉等方向的发展,发表了大量具有奠基意义的研究成果,对全球人工智能技术的创新与应用产生了深远影响。
此次余璐教授的科研成果被 TPAMI 接收,再次标志着我院教师和科研团队在人工智能、计算机视觉研究领域取得了新的重要突破。
论文题目:Complementary Text-Guided Attention for Zero-Shot Adversarial Robustness
当前视觉语言模型正改变着机器理解世界的方式,以CLIP为代表的模型,凭借强大的零样本能力在多个领域得到了广泛应用。然而,模型在面对精心构造的对抗扰动时,判别结果可能发生错误预测,影响模型在现实场景中的广泛应用。因此,系统地理解其在对抗攻击下所面临的潜在风险,并提出有效的缓解机制,将成为保障AI系统可信性与可靠性的关键前提。
针对这一前沿问题,论文系统揭示了一个关键现象。对抗扰动不仅改变图像像素,还显著干扰模型内部的文本引导注意力分布,使得模型关注区域发生结构性偏移。基于这一发现,论文提出了TGA-ZSR,从注意力对齐的角度出发,在不破坏原有泛化能力的前提下,有效提升零样本对抗鲁棒性。在进一步的研究中,论文发现单一类别提示所引导的前景注意力,在复杂场景中可能出现错误聚焦,影响模型的鲁棒性。为此,论文在文本引导注意力的基础上提出了互补文本引导注意力Comp-TGA, 融合类别提示与非类别提示引导的前景和背景注意力,使模型能够更加精准地聚焦目标区域。实验结果显示,论文提出的两种方法在16个基准数据集上均实现了显著的鲁棒性提升,进一步验证了注意力机制在增强模型鲁棒性中的关键作用。

该论文第一作者是天津理工大学计算机科学与工程学院余璐教授,在博一学生章海洋参与、徐常胜研究员指导下完成。