学位论文简介
图像作为一种直观且高效的信息表达形式,是人类交流与信息传递的关键手段。随着互联网技术与存储技术的飞速发展,人们产生了丰富多样的图像,数据规模不断膨胀。在这样的背景下,图像检索系统从大量图像中快速准确地检索用户相关信息的能力尤为重要。图像检索系统将图像映射为一个向量特征,通过检索技术执行查询样本与底库数据样本相似度的快速计算。
近年来,深度学习迅猛发展,深度学习技术已经被广泛应用在图像检索系统中的各个环节并取得了良好效果。然而,随着图像数据规模的不断增长和应用场景的日益复杂,大规模图像检索系统仍然面临着很多挑战。本文在深度学习背景下,针对大规模图像检索系统关键的图像特征提取环节与检索环节存在的问题和挑战进行了研究,主要进行了以下三个研究工作:
(1)在图像特征提取环节,针对当前向后兼容方法难以处理低质量旧模型的问题,本文提出了一种简单高效的自适应特征向后兼容训练方法—MixBCT。在大规模图像检索系统中,当需要部署性能更佳的新模型时,需要对底库图像重新执行特征提取,即“特征回填”。“特征回填”成本高昂,且当原始图像数据因隐私保护政策限制访问时不可执行。特征向后兼容训练通过在新模型的训练过程中施加约束,使新模型生成与旧特征兼容的新特征,避免繁琐昂贵的“特征回填”。然而,当前的特征向后兼容训练方法往往忽略了旧特征的分布信息,导致在旧模型质量较差,旧特征分布不佳时向后兼容性能无法保证。对此,本文分析了在理想情况下保证向后兼容所需的四个约束条件,并构建了一个由单一损失函数指导的向后兼容训练框架,它能根据旧特征的分布自适应地调整对新特征的约束域,可以作为不同质量旧模型下的统一框架。全面广泛的实验证明了本文方法的优越性。
(2)在检索环节,针对当前深度哈希方法无法良好应用于大规模场景的问题,本文提出了一种用于大规模场景的深度哈希框架—FPPQ。深度哈希通过深度神经网络将高维特征映射为低维二进制编码,旨在提高传统哈希检索性能。然而,在大规模数据场景中,本文发现当前先进或流行的深度哈希方法要么受限于计算成本而无法应用,要么性能难以满足现实场景要求。对此,本文提出了一种基于乘积量化的新型深度哈希框架,通过一个基于 Softmax 的可微分 PQ 分支学习一组预定义的 PQ 编码,它易于实现,不涉及大规模矩阵运算,并且能学习到具有高度区分性的 PQ 编码。本文在不同规模的数据集上进行了全面广泛的实验,证明了本文方法的显著优越性。
(3)在检索环节,针对FPPQ 存在的限制,本文提出了一种更实用更有效的深度哈希框架—FPPQ-3C。本文在第二部分工作提出的 FPPQ 框架在大规模场景下虽然取得了显著的进步,但仍然存在一些局限性。为了进一步提升性能,扩增应用场景,本文进一步提出了改进的 FPPQ-3C(Concise, Decoupled, Comprehensive)框架:通过在训练过程中获取预定义 PQ 标签,避免了 FPPQ 对预训练模型的依赖;通过引入一个简单的转换模块 T,解耦了 FPPQ 框架中的多任务竞争;通过一个基于转换模块 T 和 PQ 分支构成的 F2H 网络,使得 FPPQ-3C 可以在原始数据无法访问的场景下执行哈希编码学习,扩展了应用场景。在大规模场景下的全面广泛的实验,本文展示了 FPPQ-3C 的性能优势与场景应用优势。
主要学术成果
[1] Yu Liang, Shiliang Zhang, Kenli Li, Xiaoyu Wang. Unleashing the Full Potential of Product Quantization for Large-Scale Image Retrieval. Advances in Neural Information Processing Systems, 2024, 36. (NeurIPS,CCF-A类会议)
[2] Yu Liang, Yufeng Zhang, Shiliang Zhang, Ron Xiao, Sheng Xiao, Xiaoyu Wang, Kenli Li. MixBCT: Towards Self-Adapting Backward-Compatible Training. IEEE Transactions on Multimedia. (TMM, Submitted, Under review)
[3] Yu Liang, Guoqing Xiao, Shiliang Zhang, Rong Xiao, Xiaoyu Wang,Kenli Li. FPPQ++: A More Practical and Flexible Framework for Large-Scale Image Retrieval. Proceedings of the AAAI Conference on Artificial Intelligence. (AAAI, Submitted, Under review)