基于独立向量分析的语音分离算法研究

来源 :南京大学 | 被引量 : 0次 | 上传用户:q329118794
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
随着音视频会议系统以及基于语音的人机交互系统的成熟和发展,语音增强算法在通信领域以及人工智能领域得到了广泛的研究和关注。盲源分离(Blind Source Separation,BSS)算法旨在从混合信号中提取出原始的声源成分,是语音增强中一个重要的研究方向。其中语音分离算法重点关注语音之间的分离问题,在多说话人系统中具有广泛的应用。独立向量分析(Independent Vector Analysis,IVA)算法是一类被普遍认可的多通道频域盲源分离方案,该方法计算量低、效果稳定,具有很高的实际应用价值。本文围绕基于独立向量分析的语音分离算法,重点关注语音模型的选择、目标语音信号的提取以及全局排序问题的解决这三个方面的问题。高斯混合模型(Gaussian Mixture Model,GMM)能够更精确地刻画语音信号,应用于独立向量分析算法有望取得比常规声源模型更好的分离效果。然而,由于该模型通常需要一个预训练过程以获得模型参数的初始值。本文通过添加时变因子的方式,提出了一种不需要预训练的,基于时变高斯混合模型的独立向量分析算法,并通过实验验证了所提算法在参数随机初始化情况下的分离性能。相比于语音分离,目标语音提取算法仅输出期望语音,在自动语音识别(Automatic Speech Recognition,ASR)领域具有更高的应用价值。本文提出了一种将基于独立向量分析的盲源分离算法和基于x-vector的话者判别系统级联的目标语音提取方案,并通过仿真数据对比研究了基于独立低秩矩阵分析(Independent Low-rank Matrix Analysis,ILRMA)和多通道变分自编码器(Multichannel Variational Autoencoder,MVAE)两种分离算法,并对两种用于训练x-vector网络的数据增强方案进行了对比。针对频域盲源分离算法输出通道间排序不确定的问题,本文引入了基于实例归一化(Instance Normalization,IN)和自适应实例归一化(Adaptive Instance Normalization,Ada IN)的变分自编码器作为声源模型。通过将语音信号的话者编码和内容编码解耦的方式,提出了一种可以指定输出通道排列顺序的半监督盲源分离算法。此外,为了减少频域可能出现的块排序问题,本文提出对变分自编码器中的解码器网络单独进行降噪训练的方案。最后本文通过仿真验证了该算法在训练时已见话者和未见话者数据集上的分离性能以及排序准确率。
其他文献
智能群体(MAS)协同控制技术涉及数学、机械、控制、人工智能等多学科融合,已在社会服务、军事安全等相关领域得到一定的应用。MAS编队控制问题作为MAS协同控制研究中较为重要的基础问题,主要以MAS按照某一规律形成及维持期望编队形状为基本目标,在实际中具有一定的应用研究价值。MAS编队控制研究中最重要的是MAS模型的描述以及相关信息的利用方式。非完整性约束下的MAS模型,由于其建模过程接近实际运动过
元代的文化思想统治、元至元间的社会现实与元杂剧元铁木真兴起之际,还处于奴隶制向封建制过渡的阶段。政治、经济、文化都落后于当时的金、宋。但奋发图强,励精图治。这与政治、经济、文化先进,却腐化堕落的金、宋形成了鲜明的对比。
期刊
长记忆性是金融时间序列的一个重要特征,Granger(1980)和Hosking(1981)提出的ARFIMA模型是长记忆时间序列分析的一个重要工具。研究表明,在序列长记忆性较弱的情况下,ARFIMA模型的拟合效果变差。因此,Meerschaert et al.(2014)提出了ARTFIMA模型。ARTFIMA模型具有半长期记忆性,其自相关函数在短期内缓慢下降,随着滞后阶数逐渐增加呈指数速率衰减
随着国防建设现代化水平的提升,武器装备软件的规模越来越大,软件密集型特征日益凸显,当下软件质量已经成为影响装备质量的核心因素。在装备研制过程中,软件测评作为保障装备软件质量的重要环节,被纳入到型号研制的初样、试样、定型等多阶段,在此过程中汇集了大规模的过程数据,有效地收集整理并充分利用这些数据对武器装备的敏捷迭代、质量把控具有重大意义。传统的软件测评方式不能满足大规模装备软件的测评需求,人工阅读分
本文主要研究多维时间序列均值的变点检验问题。基于序列变点位置t,我们采用1t(?)[(?),1-(?)](1/(t(1-t)))1/2作为权重函数对U统计量进行加权,并取有限多个可变的核函数hr(x,y)而构建了一种加权自适应变点检验统计量。首先分析论证了在时间序列数据为多维且核函数确定情况下进行加权变点检验的可行性,获得了该检验统计量的渐近分布,并证明了采用Bootstrap抽样后相应检验统计量
伊辛模型于1920年提出,由于其形式直观且内涵丰富,一直是学者们关注的焦点。伊辛模型最初被应用于铁磁性和相变过程的相关研究中,后来被抽象成简单的统计学模型并应用于各个领域,其内涵随着学者们的研究逐渐深化。本文主要从理论研究和计算机数值模拟两方面展开关于伊辛模型间差异的研究。本文首先使用Stein方法,泊松方程和Glauber运动给出论断:函数在两个概率测度下其期望差异能被控制。然后对伊辛模型进行概
近年来汽车保有量持续增加带来的能源危机和环境污染问题急需解决。乙醇作为一种清洁可再生能源,因其含氧量较高以及与汽油相似的理化特性,成为了最具研究价值的汽车代用燃料之一。在此基础上进行氢气的掺混,有助于实现乙醇点燃式发动机在稀薄混合气条件下的正常工作,改善燃油经济性并大幅度降低污染物的排放。本文针对发动机对于优化燃烧和排放性能的需要,利用乙醇进气道喷射/氢气缸内直喷的复合喷射技术探究优化缸内混合气分
随着节能减排等国家政策法规的大力推行,电动车已经逐步成为汽车行业发展的新兴主流。但是电池续航能力低,限制了电动车的发展和普及,轻量化是解决该问题的重要手段。目前汽车行业对于结构轻量化的方式逐步趋近于饱和,材料轻量化已经逐渐成为助益电动车发展的主要途径之一。凭借其比强度高、密度低以及优异的可设计性能,碳纤维增强热固性复合材料(CFRP)得到了汽车企业和相关的科研单位高度的肯定与期待。目前由于CFRP
柴油机在重型机械领域有广泛的应用。国Ⅵ法规对排放限值提出了严厉的要求,而在瞬变工况下柴油机排放较稳态工况下骤增。目前调整喷油策略可对排放进行有效控制,是降低排放的重要措施。本文基于一轻型柴油机,以恒转增扭瞬变工况为典型工况对柴油机进行试验,对车用柴油机宏观参数的变化规律进行了研究。并结合CONVERGE软件进行仿真研究,对柴油机缸内场的分布和瞬变工况的劣变进行研究并揭示其劣变机理,其中瞬变工况下的
反馈有源降噪头靠系统无需参考传感器,结构简单,较短的声学路径使其在中低频有较好的降噪效果。非自适应反馈系统需预先知道噪声特性并离线优化控制滤波器,无法适用于噪声频谱变化的场景。自适应反馈系统可实时跟踪噪声和传递路径的变化,更为灵活。然而,反馈系统“水床”效应引起的噪声放大;有源头靠次级源因体积限制在低频响应不足,控制滤波器低频幅值过大需使用较大的泄漏因子,这些因素均影响算法的控制效果。本文对有源降