必威西汉姆体育官网王生生教授团队的论文“Task-Oriented Multi-Modal Mutual Learning for Vision-Language Models”被ICCV 2023录用。论文的第一作者为王生生教授的博士研究生龙思凡,王生生教授为通讯作者。
提示学习已经成为大型预训练视觉语言模型适应下游任务的最有效范式之一。当前最先进的方法倾向于采用软提示来学习针对每个特定任务的适当提示。最近的SOTA方法通过图像条件提示进一步提高了已知到未知类上的泛化性能。然而如我们的实验所示,它直接将相同的图像语义融合到不同标签的提示中显着削弱了不同类别之间的区分度。受这一观察的启发,我们首先提出了一种类感知文本提示,以利用与标签相关的图像信息来丰富生成的提示。与其他方法不同,类感知文本提示可以有效地关注图像语义,并避免在不同的提示中引入额外的歧义。另一方面,我们不保留完整的图像表示,而是提出文本引导特征调整以使图像分支关注与类相关的表示。采用对比损失来在下游任务上对齐此类增强的文本和图像表示。 这样,图像到文本的类感知文本提示和文本到图像的文本引导图像提示可以相互促进,增强视觉语言模型对下游任务的适应性。大量的实验表明,我们的方法明显优于现有方法。特别是,与目前SOTA方法相比,在 11 个分类基准上,我们在未知类别上平均提高了4.03%,在调和平均值上平均提高了3.19%。
ICCV全称为国际计算机视觉大会(International Conference on Computer Vision),是人工智能领域顶级国际会议,也是计算机学会收录的人工智能领域A类会议。ICCV 2023将于2023年10月4日至6日在法国巴黎举办。