【摘 要】
:
近些年来,互联网和计算机技术获得快速发展,智能交互逐渐开始改变人们的生活方式,影响人们生活的各个方面。语音作为一种最重要、最常见和最方便的信息交互方式,在人们的日常生活中发挥了非常重要的作用,是智能交互领域的研究热点之一。近些年来,自动语音识别、语音合成等语音交互技术得到研究人员的广泛关注,在一些领域得到了很好的应用。但仍存在一些问题亟待解决,如多目标同时说话会严重影响自动语音识别系统的识别性能等
论文部分内容阅读
近些年来,互联网和计算机技术获得快速发展,智能交互逐渐开始改变人们的生活方式,影响人们生活的各个方面。语音作为一种最重要、最常见和最方便的信息交互方式,在人们的日常生活中发挥了非常重要的作用,是智能交互领域的研究热点之一。近些年来,自动语音识别、语音合成等语音交互技术得到研究人员的广泛关注,在一些领域得到了很好的应用。但仍存在一些问题亟待解决,如多目标同时说话会严重影响自动语音识别系统的识别性能等。因此,研究如何从混合语音中提取每一个说话人干净、清晰的语音信号,成为语音技术发展的一个迫切需要。在语音分离领域,除了利用空间信息的多通道语音分离技术之外,单通道语音感知具有便捷、成本低的优点,因此单通道语音分离技术也成为一个重要的研究课题。实现单通道混合语音的分离面临着许多困难和挑战:首先,缺少空间信息,每个目标的语音信号混叠在仅有的同一条语音中,提取困难;其次,语音是一种具有上下文关系的时序信号,如何对较长的语音信号进行合理的时序建模也是一个重要难题;此外,当混合语音中存在背景噪声时,提取的语音通常会伴有一些伪像(宽带噪声),影响语音的听感和可懂度。鉴于以上三方面的困难和挑战,本文结合深度学习技术提出对应的解决方案,主要内容和创新点如下:(1)提出基于加权-生成因子-自编码器的单通道语音分离方法:该方法利用自编码器(autoencoder)结构获取混合语音的生成因子,并且通过注意力机制(attention mechanism)对其进行加权,为每一个目标说话人的语音学习特定的生成因子,以构造独立的语音信号特征,实现混合语音分离。此外,该方法还在目标函数中引入一个正则化损失强化分离效果,提升语音分离的性能。实验结果验证所提方法的有效性:所提方法显著优于现有相关方法,SDR(source to distortion ratio)、SIR(source to interference ratio)和SAR(sources to artifacts ratio)三个评价指标均大幅提升。在TIMIT混合语音数据集上,相对于现有相关方法,所提模型的SDR、SIR和SAR指标分别提升3.57d B(decibel,分贝)、5.92d B和4.53d B。(2)提出基于双路Transformer网络的单通道语音分离方法:该方法引入自注意力机制和transformer网络,实现每一帧语音信号之间的直接信息交互,达到上下文之间直接建模的效果;同时,引入双路网络思想,对较长的语音信号特征进行全局建模,实现感受野的最大化,充分捕捉上下文中的有益信息。实验结果表明:基于双路Transformer网络的单通道语音分离方法能显著提升语音分离性能。在公开的WSJ0-2mix数据集上,该方法优于目前最好方法,SI-SNR(scale-invariant source-to-noise ratio)指标提升7.4%,达到20.2d B,SDR指标提升8.4%,达到20.6d B。在LS-2mix混合语音数据集上,所提方法也获得较大的性能提升。(3)提出基于映射学习的单通道带噪语音分离方法:针对混合语音中的背景噪声可能会覆盖语音信号的问题,使用映射学习的方法为每一个说话人学习一个特征表示,恢复被覆盖的语音信号,从原理上减少伪像(宽带噪声)的产生,增强所提取语音的听感。在纯净混合语音和带噪混合语音数据集上的实验表明:映射学习的方法能够在不增加计算开销的情况下,恢复出被噪声掩盖的语音信号,从而有效处理语音分离过程中的背景噪声问题。基于语音分离领域的Conv-Tas Net模型,映射学习思想的SDR、SIR和SAR指标分别提升0.53d B、2.01d B和0.54d B。(4)设计并实现基于深度学习的单通道语音分离原型系统:本文采用Matlab、Python等编程语言和Tensorflow、Keras、Pytorch等深度学习框架进行原型系统的设计和实现。实现的基于深度学习的单通道语音分离原型系统包含三个模块:混合语音上传模块、单通道语音分离模块、分离语音播放和可视化模块。
其他文献
乙烯基环氧树脂(VE)由于其易燃烧的缺点,极大地限制了其在轨道交通、船舶运输等领域的应用。卤代化合物一直被用于开发阻燃性能优异的乙烯基环氧树脂,但卤代化合物在燃烧过程中会释放出腐蚀性或有毒气体。因此,迫切需要开发一种高效无卤阻燃型乙烯基环氧树脂。本文合成了两种阻燃剂:DOPO-POSS和KH550-DOPO-POSS,并将不同含量的阻燃剂和钛酸四丁脂(TBT)与MFE-711乙烯基环氧树脂共混/共
随着制药化工行业的发展,制药废水的排放和治理问题逐渐成为社会关注的重点。传统废水处理工艺难以高效去除制药废水中的抗生素,导致全球的湖泊河流等各类水体,甚至日常饮用水中检测出大量抗生素残留。残留的抗生素在大自然生态系统中不断蓄积,微生物耐药现象日趋严重,严重威胁生态系统平衡和人类健康。针对制药废水中抗生素的高效治理,吸附法由于绿色环保、价格低廉、无二次污染和操作简单等优点,被认为是最具有应用前景的技
随着电商平台供应链金融的飞速发展,虚假销售,刷单骗贷等现象频发,滋生出资金空转风险。对于空转风险,如果物流企业能将真实的物流信息上报电商平台,电商平台将物流信息与电子凭证进行匹配与甄别,从而调整对于中小型供货商的授信额度,则可以防范空转风险。但我国物流企业起步较晚、经验不足,物流监督意识与能力薄弱,建立电商平台、银行及物流企业的多方协作机制,提高物流企业的工作努力程度以提升空转风险防控能力就成为迫
柴胡皂苷是中药柴胡的主要生物活性成分,其母核结构为齐墩果烷型五环三萜类,具有解热、镇痛、镇静、抗肿瘤等药理作用;文献报道其中以柴胡皂苷A(saikosaponin A,SSA)、柴胡皂苷B1(saikosaponin B1,SSB1)、柴胡皂苷B2(saikosaponin B2,SSB2)、柴胡皂苷D(saikosaponin D,SSD)含量较高。但是,这些原生苷由于分子量和极性较大,在小肠内
行业产品技术迭代与竞争对手服务模式更替的速度加快,致使制造企业依赖实物产品获利的空间不断受到挤压,以产品服务集成为表现形式的混合产品提供逐渐成为诸多制造企业赢得竞争优势的有效策略。如何使混合产品内的产品与服务有效匹配,从而实现与客户问题解决的外部匹配,以及混合产品整体价值的实现成为值得关注的一类问题。本论文在模块化、混合产品匹配及混合产品定价的相关文献梳理基础上,首先,阐述了与混合产品匹配及其定价
随着国内外对电磁波应用技术的深入研究,微波技术在谷物质量检测领域中的应用备受瞩目。谷物的微波特征谱中所携带的物理与化学信息极为丰富,这为微波技术在谷物质量检测中的应用提供了科学依据。本文设计了一种新型的谷物质量安全检测平台,以谷物粉为实验样品,对其微波频段的电磁波特征谱进行分析并采用BP神经网络进行鉴别分类。获得了相关谷物的指纹特征谱,为探索新型谷物质量检测方法与装置提供可借鉴的关键技术。主要研究
随着近年来工业蓬勃发展,工业上对以永磁同步电机为核心的伺服系统在精度、实时性等多方面提出更加严苛的要求。因此,针对以永磁同步电机为核心的伺服系统研究是当下一大研究热点。然而,永磁同步电机系统是一个多变量、强耦合的非线性复杂系统,倘若采用传统线性控制方法来处理永磁同步电机系统,往往无法达到预期控制效果。本文采用滑模变结构、自适应控制和非线性观测器技术,对永磁同步电机系统性能进行改善,具体内容包括:(
翼手目动物(Chiroptera),俗称蝙蝠,是唯一能够真正飞行的哺乳类动物,物种多样性仅次于啮齿目(Rodentia),是第二大的哺乳动物类群。蝙蝠扩散能力强,分布广泛,广泛适应多种生境,在自然生态系统及生物多样性的维持与稳定中起着非常重要的作用,但人们对蝙蝠的地理分布格局研究较为有限。国内一些研究对蝙蝠物种资源进行了大量的基础性调查,并对其生物保护展开了分析和讨论。国外已有一些关于蝙蝠的海拔分
智能水凝胶是一种重要的高分子材料,在学术研究和工业应用方面都有广阔的前景,尤其在药物输送系统中,能够响应特定的生理触发因素从而在适当的时间和作用部位释放包埋的药物。近年来,刺激响应型水凝胶的合成、自组装、溶胶-凝胶行为及其载药-释药特性是国内外高分子及材料科学领域的一大研究热点。本文基于目前智能水凝胶在生物医药领域的研究现状,采用可逆加成-断裂链转移聚合(RAFT)法,以2-(2-氰基丙基)二硫代
随着全球环境和能源问题的日益加剧,电动汽车凭借节能、环保等优点受到了各国政府的广泛关注和大力推广。电池管理系统(Battery Management System,BMS)作为连接电动汽车和动力电池的重要纽带,对其研究成为了近几年的热点。精确的电池荷电状态(State Of Charge,SOC)是BMS制定能量分配、充放电控制等控制策略的重要依据。然而,SOC在车辆行驶过程中无法由传感器直接测得