近日,我院梁吉业教授指导的博士生樊宇新和王文剑教授指导的博士生侯森寓分别以第一作者身份在人工智能国际顶级会议IEEE/CVF Conference on Computer Vision and Pattern Recognition(CVPR 2025)发表论文。
此次发表的两篇论文均聚焦于弱监督学习,有效地提升了机器学习方法在开放世界和标记噪声场景下的性能,并在图像识别上取得了显著效果。相关研究成果有望推动机器学习在更广泛应用领域取得成功。
第一篇论文:Learning Textual Prompts for Open-World Semi-Supervised Learning
传统的半监督学习在封闭世界场景中取得了显著成功,但其依赖于封闭类别集合的强假设,这限制了其在现实世界开放场景中的应用。为了解决这一问题,研究者提出了面向开放世界的半监督学习,旨在使模型能够同时识别开放世界场景中的已知和未知类别。现有方法通常将类别表示为离散型符号变量,这种表征方式由于缺乏与语义空间的直接关联,导致模型难以有效利用语义知识进行类别识别。针对这一局限性,最新研究通过引入类别的文本描述作为语义知识,并采用基于检索的文本生成策略构建语义知识库,通过跨模态协同教学策略进行视觉-语义空间的对齐,从而显著提升了开放场景下的类别识别性能。
图 1 所提方法框架图
这种基于检索的文本生成策略引入的语义知识中包含了与视觉信息无关的语义噪声,这降低了模型在视觉-语义对齐中的有效性,进而限制了其类别识别性能。为解决这一问题,论文提出了全局-局部双粒度对齐策略,通过将可学习的文本提示与视觉特征进行全局-局部对齐,提高了模型在视觉-语义对齐中的有效性。此外,论文还引入了检索与验证策略,旨在减轻跨模态协同教学策略中视觉-语义匹配过程中的噪声。这两种策略有效增强了模型在开放环境下对不同类别判别特征的提取和识别能力。结合这两种策略,论文提出了一种新型的开放世界半监督学习方法(见图1)。实验结果(部分展示于表1)表明,在多个数据集上,相较于当前最先进的方法,论文提出的方法在可学习参数量减少95%的情况下,仍在多项评价指标上取得了更优的性能。
表1 在不同数据集上的分类结果
该论文通讯作者为梁吉业教授,第一作者为2023级博士生樊宇新,合作者为崔军彪讲师。研究工作依托计算智能与中文信息处理教育部重点实验室,
受到国家自然科学基金区域联合基金重点项目与国家自然科学基金面上项目的支持。
第二篇论文:Directional Label Diffusion Model for Learning from Noisy Labels
在图像分类任务中,训练数据的标签质量是深度神经网络提升泛化能力的关键因素。现实世界数据常常存在标签噪声问题,导致神经网络的泛化性能受到负面影响。因此,如何在低质数据集上鲁棒学习成为当前深度学习领域的关键挑战。然而,现有基于判别式架构的标签噪声学习方法,仅学习特征到标签的单一映射关系,通常存在学习表征不充分的局限性。
针对上述问题,该论文从新颖的生成式视角出发,提出了一种定向标签扩散模型(简称DLD),能更稳健地学习特征到标签的生成关系,以提升分类模型的泛化能力。DLD模型的核心创新在于将扩散过程解耦为定向扩散和随机扩散两条路径(见图2)。其中定向扩散能够引导初始标签朝向一个指定的噪声方向偏移,从而让标签扩散模型显式容纳噪声信息,提升其鲁棒生成的可解释性;随机扩散则保留原有的扩散机理,使扩散模型能从随机高斯噪声分布中恢复出干净的标签。该论文进一步提出了一种简单有效的标签预校正技术,以自动地为DLD模型在各种噪声环境中的训练提供适配的标签信息。
图 2 定向标签扩散示意图
该论文进一步优化了标签扩散中特征条件的引入机制,并提供了理论保障。大量实验结果表明,所提模型在模拟和真实噪声数据集上都优于当前最先进的方法(见表2)。
表 2 包含实例依赖噪声的CIFAR数据集上的分类结果
该论文通讯作者为王文剑教授,第一作者为2023级博士生侯森寓,合作者为姜高霞副教授、2024级博士生张佳、杨尚蓉讲师、郭虎升教授、郭亚庆讲师。研究工作依托计算智能与中文信息处理教育部重点实验室,受到国家自然科学基金区域联合基金重点项目与国家自然科学基金面上项目的支持。
国际计算机视觉与模式识别会议(IEEE/CVF Conference on Computer Vision and Pattern Recognition, 简称CVPR)是由国际电气电子工程师学会(IEEE)主办的计算机视觉及人工智能领域最具学术影响力的国际顶级会议之一,同时也被中国计算机学会(CCF)推荐为人工智能领域的A类会议,主要发表计算机视觉领域与人工智能领域的前沿研究成果。本届CVPR将于今年6月11日至6月15日在美国田纳西州纳什维尔举办。
责编:魏 巍
二审:曹付元
三审:解珂珂