我院余璐教授在视觉语言模型零样本对抗鲁棒性方向的最新成果被人工智能和计算机视觉顶级期刊TPAMI接收-计算机科学与工程学院

科研成果

您当前所在位置是: 首页 >> 科学研究 >> 科研成果 >> 正文

我院余璐教授在视觉语言模型零样本对抗鲁棒性方向的最新成果被人工智能和计算机视觉顶级期刊TPAMI接收

TPAMI (IEEE Transactions on Pattern Analysis and Machine Intelligence) 是计算机视觉与模式识别领域公认的顶级学术期刊之一，由 IEEE 主办，在中国计算机学会认定的人工智能领域四大 A 类期刊中排名第一。根据最新统计数据，TPAMI 影响因子达到 18.6，位列计算机科学与人工智能分区 Q1 前列，CiteScore 约为 35，h5-index 达 217。自 1978 年创刊以来，期刊始终引领模式分析、机器学习与计算机视觉等方向的发展，发表了大量具有奠基意义的研究成果，对全球人工智能技术的创新与应用产生了深远影响。

此次余璐教授的科研成果被 TPAMI 接收，再次标志着我院教师和科研团队在人工智能、计算机视觉研究领域取得了新的重要突破。

论文题目：Complementary Text-Guided Attention for Zero-Shot Adversarial Robustness

当前视觉语言模型正改变着机器理解世界的方式，以CLIP为代表的模型，凭借强大的零样本能力在多个领域得到了广泛应用。然而，模型在面对精心构造的对抗扰动时，判别结果可能发生错误预测，影响模型在现实场景中的广泛应用。因此，系统地理解其在对抗攻击下所面临的潜在风险，并提出有效的缓解机制，将成为保障AI系统可信性与可靠性的关键前提。

针对这一前沿问题，论文系统揭示了一个关键现象。对抗扰动不仅改变图像像素，还显著干扰模型内部的文本引导注意力分布，使得模型关注区域发生结构性偏移。基于这一发现，论文提出了TGA-ZSR，从注意力对齐的角度出发，在不破坏原有泛化能力的前提下，有效提升零样本对抗鲁棒性。在进一步的研究中，论文发现单一类别提示所引导的前景注意力，在复杂场景中可能出现错误聚焦，影响模型的鲁棒性。为此，论文在文本引导注意力的基础上提出了互补文本引导注意力Comp-TGA, 融合类别提示与非类别提示引导的前景和背景注意力，使模型能够更加精准地聚焦目标区域。实验结果显示，论文提出的两种方法在16个基准数据集上均实现了显著的鲁棒性提升，进一步验证了注意力机制在增强模型鲁棒性中的关键作用。

该论文第一作者是天津理工大学计算机科学与工程学院余璐教授，在博一学生章海洋参与、徐常胜研究员指导下完成。

【关闭】