【摘 要】
:
说话人识别也被称为声纹识别,是指利用人的特有的声音特性来判别说话人的身份,它作为有效的生物识别技术之一,被应用于实际生活中的众多领域。本文主要研究基于深度学习的说话人识别方法,分别从说话人模型的建立和特征提取两个方面对说话人识别系统进行了研究。论文主要工作如下:1.研究了基于CNN-TDNN混合模型的说话人识别方法。首先利用卷积神经网络(Convolutional Neural Network,C
【基金项目】
:
国家自然科学基金项目“基于深度神经网络的说话人分离和识别算法的研究”(项目编号:61866024);
论文部分内容阅读
说话人识别也被称为声纹识别,是指利用人的特有的声音特性来判别说话人的身份,它作为有效的生物识别技术之一,被应用于实际生活中的众多领域。本文主要研究基于深度学习的说话人识别方法,分别从说话人模型的建立和特征提取两个方面对说话人识别系统进行了研究。论文主要工作如下:1.研究了基于CNN-TDNN混合模型的说话人识别方法。首先利用卷积神经网络(Convolutional Neural Network,CNN)学习语音的对数梅尔滤波器组特征(Log-mel Filter Bank,FBank)的局部空间特征。然后利用时延神经网络(Time-Delay Neural Networks,TDNN)对语音信号中的动态时域变化建模,从而捕获语音信号长时依赖关系,获取说话人发音习惯特性。最后利用Softmax函数将神经网络输出值映射至概率空间,根据输出概率大小识别说话人身份。实验结果表明,基于CNN-TDNN混合模型的说话人识别系统识别性能优于基于单一的TDNN的X-vector说话人识别系统。2.研究了基于自适应特征映射的鲁棒性说话人识别方法。针对实际采集的语音常带有不同强度噪声的问题,提出利用多个尺度的高斯滤波器平滑语谱图的噪声,得到多尺度的高斯滤波语谱图(Gaussian Filter Spectrums,GFSs)。然后利用分组卷积实现多个尺度的GFSs的分别卷积,再将得到的所有特征图相同位置的特征点映射到最大特征空间。最后利用网络权值的实时更新,自适应抑制带有不同强度噪声的语谱图中的噪声,从而使网络能提取鲁棒性更强的说话人特征。实验结果显示,自适应特征映射有效地提高了说话人识别系统的准确性及鲁棒性。
其他文献
远程庭审依托网络视频技术,具有突破时空限制的优势,与重大疫情防控期间刑事案件审理与秩序维护需要相契合。从实践来看,远程庭审运行潜藏多重风险,技术性要素欠缺与庭审规范化要求相背离,程序规范阙如使其与权利保障要求存在张力,线上审理形式对庭审实质化有所冲击,从而对社会审判需求呈弱回应性。为弥补社会需求旺盛而远程庭审制度供给不足之间的矛盾,应提升远程庭审对信息化技术的适应力,以权利保障与庭审实质化为着力点
随着大数据时代的到来和人工智能技术的飞速发展,预测模型的研究已成为人工智能领域的一个重要分支,现已被广泛应用于智慧工业、智慧医疗、智慧金融等多个领域。近年来,基于机器学习算法的智能预测已开始应用于自然灾害监测、工业数据预警、医疗辅助诊断等领域,并取得了良好的效果。传统机器学习模型存在特征提取不充分、泛化能力不足等问题,从而导致模型的预测性能不佳。以深度学习算法为代表的深度神经网络凭借其高效的深层特
随着互联网的飞速发展,信息过载的问题日渐突出,推荐系统是为解决信息过载而提出的一种解决方案,它从海量信息中筛选出符合目标用户兴趣偏好的那一部分。而评分预测任务是推荐系统中最主要的任务之一,准确预测用户对未知物品的评分,才能达到更好的推荐效果。为了解决推荐系统中的任务,人们提出了许多种推荐算法,这些算法或利用不同的数据、或采取不同的方式分析数据,分为不同种类。本文的工作围绕推荐系统中的评分预测任务。
作为一种光学微结构,微透镜阵列已被广泛应用于通讯、照明、成像等领域,超精密加工技术是当前创成微透镜阵列的主要方法之一。近年来国内外许多研究机构对微透镜阵列的结构设计、加工工艺等做了研究,但针对超精密加工对刀误差对微透镜阵列创成的影响研究却存在不足。本研究从分析对刀误差产生的原因入手,设计了新型超精密车铣加工对刀方法;建立对刀误差对微透镜阵列创成的影响模型,并通过实验验证。主要研究内容如下:1)面向
方面级情感分析更细粒度,能分类出一段文本中不同方面的情感极性,它的关键点在于如何根据文本中给定方面表示出与上下文间的隐式关系。基于注意力机制的方法可以很好的关注到文本中方面的重要性,深度学习方法可以自主学习提取特征,在特征表达上表现更好。为了更有效的提取文本的情感特征信息以增强分类效果,本文针对用户评论文本进行了基于深度学习的方面级情感分析研究,主要工作如下:(1)提出了基于多注意力机制的混合神经
在一体化实现快速发展的同时,长三角区域污染防治形势依然严峻,加快构建长三角区域污染防治一体化发展协作机制迫在眉睫。协调沪苏浙皖污染"联防共治"是一项长期而艰巨的系统工程。应立足长三角大气、水等污染防治的现状,针对区域污染防治困境,从协作治理角度完善长三角污染防治协作机制,探寻源头防控、统筹协作、强化制度、协同推进的污染防治"共保联治"新路径,推动长三角污染防治协作取得更大成效。
如今以自然语言回答为特点的自动问答系统已经成为服务人类的重要的人机交互方式。非完备信息博弈游戏如竞技麻将,有着巨大的玩家基础,玩家在进行博弈游戏的时候,需要事先了解大量的博弈知识,玩家在互联网上进行搜索,却无法快速得到准确的知识。针对这一问题,本文对非完备信息博弈领域的自动问答系统进行研究,构建了融入深度学习技术的非完备信息博弈问答系统。旨在满足玩家的学习需求,起到辅助决策的作用,提升玩家的博弈游
蛋白质是基因表达的产物,是生命中的基本元素,具有维持生物体生命活动的重要作用,这使得蛋白质组学成为后基因组时代生命科学中重要的研究领域。准确预测蛋白质,对蛋白质进行精准分类,对研究其结构及功能具有重要的意义。随着后基因组时代的发展,蛋白质数据激增,通过传统的生物实验的方法确定蛋白质类别耗时费力。因此,开发一种利用理论方法与计算技术预测蛋白质的方法是非常有必要的。本论文主要基于深度学习算法,研究两类
网络化控制系统虽具有较高的灵活性,较低的成本以及资源共享等诸多优点,但同时因为网络的开放性很容易受到DoS攻击.目前对DoS攻击带来的负面影响进行积极补偿的研究并不是很多,所以基于不同类型的DoS攻击,实现对DoS攻击带来负面影响的积极补偿,具有重要的理论价值和实际应用价值.本文具体研究工作如下:针对网络化控制系统,首先,我们分别描述了周期性DoS攻击模型和时间约束型DoS攻击模型,并对时间约束型
随着城市规模扩大,公共区域内拥堵、踩踏等突发事件发生概率也随之增加。在多种群体性异常行为中,由摔倒引发的群体恐慌行为往往会引起极为严重的后续后果,除此之外摔倒本身的致死率也极其高。对此本文针对群体行为中重要的多人场景下的摔倒检测进行研究。现有基于计算机视觉的摔倒检测算法存在以下两个问题:问题一是多人复杂场景给摔倒检测造成干扰性大,导致实时性低。现有方法多针对单人简单场景下的摔倒检测,在含有多人的场