基于深度度量学习的声纹识别与行人重认证

来源 :华中科技大学 | 被引量 : 0次 | 上传用户:Rang3r
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
随着深度学习的发展,近年来生物特征识别(人脸识别、声纹识别、行人重认证等)技术取得了显著的进展,其中人脸识别的发展较为成熟且研究较为充分。但是人脸识别的应用场景比较单一,往往需要比较清晰的人脸图像。人脸识别中的成熟的深度学习方法直接应用在其他生物特征识别(例如声纹识别、行人重认证等)任务上的效果并不理想。生物特征识别的机器学习问题往往不是一个简单的分类任务,而属于一个开集任务(open-set task),因此不适合用传统的分类方法来处理,结合深度神经网络的度量学习技术是当前处理生物特征识别的主流技术。本文基于深度度量学习,从不同数据形态、不同应用背景研究声纹识别、行人重认证算法,主要工作和创新点包括如下几个部分:
  (1)针对非受限自然场景下的声纹识别,提出了一个基于深度神经网络的多度量学习声纹识别方法。当前,基于深度度量学习的方法在声纹识别方面取得了一定的效果,但是在信号环境差、背景噪声大的情况下,声纹识别精度并不理想。其中的问题在于现有的方法往往只基于单一的度量学习方法,考虑信息不够全面。因此,本文提出了一个多度量学习的方法,主要是在训练阶段利用多个度量学习损失函数对特征向量进行优化,让多个不同权重的损失函数全面的考虑同一批次多个样本之间的关系。两个大型公开数据集(VoxCeleb1和VoxCeleb2)的实验表明该方法显著超越了之前单一度量学习方法。
  (2)针对传统三元组损失函数及其变种在行人重认证任务中泛化能力比较弱的问题,本文提出了新的三元组批次中心损失(Triplet-batch-center Loss)函数。在每个批次内,首先得到相同标签数据的中心点,然后约束每个样本点到自身类别中心的距离和非自身类别中心点的距离,因为每个中心点都包含了多个样本的信息,所以考虑的信息更加全面,同时能够更好的保持较小的类内距离和较大的类间距离。在三个大规模数据集(包括Market-1501、DukeMTMC-reID和CUHK03)上的实验结果充分地表明,基于三元组批次中心损失训练得到的深度网络特征具有更好的泛化性和判别能力。
  (3)为进一步提升复杂场景下的行人重认证性能,提出了一个基于推土机距离(Wasserstein distance)的损失函数。现有的度量学习方法往往只考虑单个数据点或者批次数据点之间距离优化,而度量学习的目标任务往往是不同类别间的距离优化。著名的推土机距离正是衡量不同类别分布差异性的度量方法,因此本文将推土机距离引入到行人重认证任务中,使得不同类别样本之间的差异性增大。该方法作为辅助,与现有的度量学习方法结合,能够进一步增加模型的泛化性和特征向量的可分辨性。从应用方式上来说,该方法也是多度量学习方法的一种特殊情况。尽管从数据形态来说,声音和图像有着明显的差异性,但是通过大量实验表明,本文提出的方法在行人重认证和声纹识别任务上都有着明显的效果。
  本文基于深度度量学习技术,研究计算机视觉和语音处理两个领域、图像和语音两种不同的数据形态下的声纹识别和行人重认证问题,提出了三种新颖的损失函数构建方法。
其他文献
为了克服无线功率传输(wireless power transfer,WPT)产生的“双远近效应”的影响,满足远距离用户设备(user equipments, UEs )基本的服务质量(quality-of-service, QoS)需求,本文研究了无线蜂窝网络中设备到设备(diveice to device, D2D)辅助上行非正交多址接入技术(non-orthogonal multiple access, NOMA)通信系统的节能资源分配。其中所有上行链路UEs都是通过WPT从基站(base stat
供给表现来看,去库存速度加速一线城市土地市场独秀风骚。全国商品房屋待售面积整体依旧处于历史高位,但销售“旺季”的到来,使得全国去库存速度的进一步加快。  九月伊始,融创以7.3万元/平方米刷新北京及全国单价地王纪录,随后又得天津地王;新鸿基217.7亿刷新上海总价地王记录。杭州华家池地块及苏州金鸡湖地块也分别总价和楼面单价创出当地新高。  从土地市场过往经验看,下半年进入供地增长期,土地投资活跃。
期刊
他手上的基金是有史以来最赚钱的,是什么造就了这位传奇的基金经理?答案很简单,勤奋。  彼得·林奇——历史上最伟大的投资人之一,被美国基金评级公司评为“历史上最传奇的基金经理人”。他对共同基金的贡献,就像乔丹之于篮球,伊莎多拉·邓肯之于现代舞蹈。  他不是人们日常认识中的那种脑满肠肥的商人,他把整个投资提升到一个新的境界,他让投资变成了一种艺术,而且紧紧地抓住每一个投资人和储蓄者的注意力。当然,他也
期刊
时令一交寒露,霜降,牡蛎即开始肥美起来。  牡蛎在福州方言中称为“蛎房”,是古汉语的称谓,很形象。每一颗海蛎都在一个房子一样的壳中窝居着,坚硬的外壳包裹着柔软的躯体,就象英国文豪狄更斯在《圣诞颂歌》中得描述:“象牡蛎一样,神秘,自给自足,而且孤独。”把牡蛎描述得象一个独居的侠客。  牡蛎在福州可是个平民的食物,家家户户吃得起。小时候一到快入冬,海蛎上季,街角巷尾就多了炸海蛎饼的小摊。煤球炉架着一口
期刊
智能电网(Smart grid,SG)中的相量测量单元(Phasor measurement unit,PMU)和智能仪表(Smart meter,SM)通过异构无线网络将向量测量单元和智能仪表测量的数据和参数传输至控制中心(Control center,CC)。如何选择一条可靠、稳定和安全的数据传输链路将海量的终端数据传送至CC进行数据分析并处理显得尤为重要。
  传统智能电网博弈数据路由的选择模型中,博弈模型中传感器节点需要获得所有传感器节点的博弈状态信息来进行下一次路由决策。基于以上分析,本文
5G标准中超高可靠和超低延迟通信(Ultra High Reliable Low Delay Communication,URLLC)应用场景对通信系统的可靠性和可执行能力提出了严格的要求,本文试图对通信物理层编码和调制技术的这一主题进行探索性研究。本项目在研究小组前期的研究工作积累中,对置换群码(Permutation Group Code,PGC)的代数结构进行了研究,在码集合的代数产生方法上取得了突破性的进展。在此基础上,本文将置换群码的码字用于同时调制载波的幅度和相位,形成基于置换群码的多维幅度相
董其昌先生是个怪人。   有一年他路过苏州,受朋友之邀,去城西三十里外的天池山踏青。众人坐在山间松林里,焚香烹茗,饮酒赋诗,不亦乐乎。正谈笑间,董先生突然不说话了,手持酒杯一动不动,目光呆滞。大家正要问他,他却猛然站起,指着远处的莲花峰,大叫一声,边叫边跑。同席者惊问,先生莫非醉了?只见董先生仰天大笑:“今日得遇吾师耳!”众人更奇怪了,哪里来的什么老师,连忙拉董先生坐回来,灌下一大杯茶。董仍然喃
期刊
随着信息化的发展,互联网已经累计了海量的文本数据。如何准确获取自己想要的信息一直是人们所关心的问题。以关键字匹配为基础的搜索引擎对自然语言提问没有完全的理解能力,无法理解用户检索问题的实质和关键内容。机器阅读理解是问答系统、语义搜索需要解决的核心问题,并逐渐成为最近的研究热点。本文在进行机器阅读理解相关研究时发现,现有模型无法利用与问题存在间接关系的文本信息。当文本较长、文本和问题较为复杂时,模型无法轻易跳过不相关文本。
  本文深入调研了国内外在机器阅读理解方面的研究,并通过几个经典的模型对现有模
无线电测向是一种常见的定位方式,要实现精确测向,往往需要使用基于天线阵列的复杂专用硬件设备来分析射频信号的特征参数,这使其难以用于普通的民用场合。近年来,人们能够通过修改网卡固件的方式从商用Wi-Fi网卡中获取无线电的信道状态信息(Channel State Information, CSI),并基于此信息来计算目标方位。然而,Wi-Fi网卡作为一种非专用的射频测量硬件,在获取CSI的过程中不可避免地会引入多种硬件测量误差(包括残余的载波频偏、采样频率偏移、包检测时延和初始相位偏移等),且只具备有限的射频
陆游晚岁,自称放翁。形骸放达,心情忧惧。八十岁作《家训》一篇,力戒子孙奢靡。先说其父楚公,少时贫苦,皮带断裂,麻绳续之。继说姑妈,回陆家来,见食包子,忙起身告罪说:“原谅我老糊涂,记不清今天是谁生日了。”在座晚辈窃笑。楚公感叹说:“从前我们陆家天天喝粥。逢年过节,或做生日,才蒸肉馅包子。你们晚辈哪知这些。”放翁最怕子孙奢靡,堕落成家国的罪人。   《家训》愤慨官场腐败,竞说:“幸好我快死了。一时
期刊