论文部分内容阅读
随着深度学习的发展,近年来生物特征识别(人脸识别、声纹识别、行人重认证等)技术取得了显著的进展,其中人脸识别的发展较为成熟且研究较为充分。但是人脸识别的应用场景比较单一,往往需要比较清晰的人脸图像。人脸识别中的成熟的深度学习方法直接应用在其他生物特征识别(例如声纹识别、行人重认证等)任务上的效果并不理想。生物特征识别的机器学习问题往往不是一个简单的分类任务,而属于一个开集任务(open-set task),因此不适合用传统的分类方法来处理,结合深度神经网络的度量学习技术是当前处理生物特征识别的主流技术。本文基于深度度量学习,从不同数据形态、不同应用背景研究声纹识别、行人重认证算法,主要工作和创新点包括如下几个部分:
(1)针对非受限自然场景下的声纹识别,提出了一个基于深度神经网络的多度量学习声纹识别方法。当前,基于深度度量学习的方法在声纹识别方面取得了一定的效果,但是在信号环境差、背景噪声大的情况下,声纹识别精度并不理想。其中的问题在于现有的方法往往只基于单一的度量学习方法,考虑信息不够全面。因此,本文提出了一个多度量学习的方法,主要是在训练阶段利用多个度量学习损失函数对特征向量进行优化,让多个不同权重的损失函数全面的考虑同一批次多个样本之间的关系。两个大型公开数据集(VoxCeleb1和VoxCeleb2)的实验表明该方法显著超越了之前单一度量学习方法。
(2)针对传统三元组损失函数及其变种在行人重认证任务中泛化能力比较弱的问题,本文提出了新的三元组批次中心损失(Triplet-batch-center Loss)函数。在每个批次内,首先得到相同标签数据的中心点,然后约束每个样本点到自身类别中心的距离和非自身类别中心点的距离,因为每个中心点都包含了多个样本的信息,所以考虑的信息更加全面,同时能够更好的保持较小的类内距离和较大的类间距离。在三个大规模数据集(包括Market-1501、DukeMTMC-reID和CUHK03)上的实验结果充分地表明,基于三元组批次中心损失训练得到的深度网络特征具有更好的泛化性和判别能力。
(3)为进一步提升复杂场景下的行人重认证性能,提出了一个基于推土机距离(Wasserstein distance)的损失函数。现有的度量学习方法往往只考虑单个数据点或者批次数据点之间距离优化,而度量学习的目标任务往往是不同类别间的距离优化。著名的推土机距离正是衡量不同类别分布差异性的度量方法,因此本文将推土机距离引入到行人重认证任务中,使得不同类别样本之间的差异性增大。该方法作为辅助,与现有的度量学习方法结合,能够进一步增加模型的泛化性和特征向量的可分辨性。从应用方式上来说,该方法也是多度量学习方法的一种特殊情况。尽管从数据形态来说,声音和图像有着明显的差异性,但是通过大量实验表明,本文提出的方法在行人重认证和声纹识别任务上都有着明显的效果。
本文基于深度度量学习技术,研究计算机视觉和语音处理两个领域、图像和语音两种不同的数据形态下的声纹识别和行人重认证问题,提出了三种新颖的损失函数构建方法。
(1)针对非受限自然场景下的声纹识别,提出了一个基于深度神经网络的多度量学习声纹识别方法。当前,基于深度度量学习的方法在声纹识别方面取得了一定的效果,但是在信号环境差、背景噪声大的情况下,声纹识别精度并不理想。其中的问题在于现有的方法往往只基于单一的度量学习方法,考虑信息不够全面。因此,本文提出了一个多度量学习的方法,主要是在训练阶段利用多个度量学习损失函数对特征向量进行优化,让多个不同权重的损失函数全面的考虑同一批次多个样本之间的关系。两个大型公开数据集(VoxCeleb1和VoxCeleb2)的实验表明该方法显著超越了之前单一度量学习方法。
(2)针对传统三元组损失函数及其变种在行人重认证任务中泛化能力比较弱的问题,本文提出了新的三元组批次中心损失(Triplet-batch-center Loss)函数。在每个批次内,首先得到相同标签数据的中心点,然后约束每个样本点到自身类别中心的距离和非自身类别中心点的距离,因为每个中心点都包含了多个样本的信息,所以考虑的信息更加全面,同时能够更好的保持较小的类内距离和较大的类间距离。在三个大规模数据集(包括Market-1501、DukeMTMC-reID和CUHK03)上的实验结果充分地表明,基于三元组批次中心损失训练得到的深度网络特征具有更好的泛化性和判别能力。
(3)为进一步提升复杂场景下的行人重认证性能,提出了一个基于推土机距离(Wasserstein distance)的损失函数。现有的度量学习方法往往只考虑单个数据点或者批次数据点之间距离优化,而度量学习的目标任务往往是不同类别间的距离优化。著名的推土机距离正是衡量不同类别分布差异性的度量方法,因此本文将推土机距离引入到行人重认证任务中,使得不同类别样本之间的差异性增大。该方法作为辅助,与现有的度量学习方法结合,能够进一步增加模型的泛化性和特征向量的可分辨性。从应用方式上来说,该方法也是多度量学习方法的一种特殊情况。尽管从数据形态来说,声音和图像有着明显的差异性,但是通过大量实验表明,本文提出的方法在行人重认证和声纹识别任务上都有着明显的效果。
本文基于深度度量学习技术,研究计算机视觉和语音处理两个领域、图像和语音两种不同的数据形态下的声纹识别和行人重认证问题,提出了三种新颖的损失函数构建方法。