【摘 要】
:
作为最重要的语音信号处理分支之一,单通道盲语音分离已被广泛应用于现代人工智能与其它人机交互的应用领域,其中,多说话人混合语音是一个比较重要的研究热点。然而现有的单通道语音分离研究算法往往存在适应性不高、鲁棒性不强、分离效果欠佳等问题。为此,本论文借助非负矩阵分解理论,构建了两种卷积凸非负矩阵分解模型用于单通道语音分离,并且通过真实语音实验数据验证了所提出算法的有效性。本文的主要研究工作如下:1、提
论文部分内容阅读
作为最重要的语音信号处理分支之一,单通道盲语音分离已被广泛应用于现代人工智能与其它人机交互的应用领域,其中,多说话人混合语音是一个比较重要的研究热点。然而现有的单通道语音分离研究算法往往存在适应性不高、鲁棒性不强、分离效果欠佳等问题。为此,本论文借助非负矩阵分解理论,构建了两种卷积凸非负矩阵分解模型用于单通道语音分离,并且通过真实语音实验数据验证了所提出算法的有效性。本文的主要研究工作如下:1、提出了基于鲁棒卷积凸非负矩阵分解(Robust Convolution Convex Nonnegative Matrix Factorization,RCCNMF)的单通道语音分离算法。考虑到传统的卷积凸非负矩阵分解模型使用欧氏距离来定义模型的代价函数,这会使得模型对噪声和异常值较为敏感。为此,本文使用互熵准则替换欧氏距离用于估计原始语音频谱与重构语音频谱之间的误差,进而构建了RCCNMF单通道语音分离新模型。进一步,为了优化所提出的模型参数,根据乘性更新规则,推导了模型参数的迭代更新解。最后,在混合语音上进行实验,利用短时目标可懂度(Short-Time Objective Intelligibility,STOI)、信噪比(Source to Noise Ratio,SNR)等评价指标,实验结果验证了提出的单通道语音分离算法的先进性。2、提出了基于传导卷积凸非负矩阵分解(Transductive CCNMF,TCCNMF)的单通道语音分离算法。对于单通道多说话人语音分离问题,由于卷积凸非负矩阵分解模型仅能得到单个说话人的基矩阵,未充分学习到混合语音中的有效信息,使得间接得到的混合基矩阵难以有效表示混合语音频谱。为此,本文在上述模型的基础上引入了传导思想,将几个单说话人语音频谱及其混合语音频谱联合输入至模型中来直接学习出混合基矩阵,并利用KL散度(Kullback-Leibler Divergence)来评估语音分离前后的损失,进而构建了基于TCCNMF的单通道语音分离算法。然后,为了优化构建的模型,根据乘性更新规则详细推导了每个基矩阵、混合基矩阵、系数矩阵的迭代更新解。最后,在混合语音上的实验结果验证了提出的TCCNMF算法优于其它几种对比方法。
其他文献
岩溶地面塌陷是一种在我国广泛地区存在的地质灾害。岩溶区人类工程活动特别是强烈抽取地下水的作用会引起周边的岩溶地面塌陷,这势必影响到修建于此处的铁路的安全。本文以衡柳线二塘站岩溶地面塌陷为研究内容,对岩溶区工程地质条件及人类工程活动诱发岩溶地面塌陷的机理进行了研究。为防止抽排地下水造成铁路路基区的岩溶塌陷,拟采用注浆形成悬挂式帷幕的方法进行整治,这是少见的工程处理措施。本文中通过数值模拟的方法论证悬
产业的融合发展引发乡村产业结构发生变化。在此背景下,乡村一二三产业之间互相组合,形成不同类型的复合产业。乡村复合产业发展促进产业农居内部功能走向多元化,复合功能产业农居成为其重要的发展趋势。在此过程中,传统产业农居产业功能会逐渐增加,所需要的复合功能产业空间也会随之变化。由于缺乏专业指导和统筹考虑,产业农居出现了传统风貌元素缺失、现代风貌元素滥用的问题。这些问题不仅影响了产业农居家庭产业的未来发展
随着儿童年龄的增长,儿童与家长能够进行有效互动交流的时间逐渐减少,3-8岁的儿童处于认知能力发展、自尊养成、智力发展的重要阶段,有效的亲子互动有利于保障该阶段儿童的身心健康。在家庭环境中使用的儿童家具,若只注重普通成人或儿童对家具使用的功能性要求,而无视亲子双方处于不同的认知与发展阶段的使用需求,这对亲子间互动行为的展开是没有帮助的。首先,使用文献收集法获知设计事理学的研究现状和背景现状,通过对设
太阳能富集地区由于其独特的地理位置和气候类型多样化以及太阳能自然资源,使其成为一个复杂多样的生态环境,而该地区发展经济较为缓慢,通过分析该地区的地域环境,实现该地区的农村住宅的宜居性能的提高。本文基于太阳能富集地区的农村住宅规划与设计,以太阳能富集地区为研究区域,以该地区不同气候区农村住宅为研究对象,其中以川西北高原住宅为重点进行探讨分析,通过从气候和生态、人文环境等背景为出发点入手,以建筑学的视
冶金级碳化硅用于铸造熔炼中,既可以作为铁水预处理剂,有效增加石墨核心、脱氧去气净化铁水,改善铁水冶金质量,从而提高铸件材质质量;又可以替代硅铁和部分增碳剂,降低铁水材料熔炼成本,降低铸件的制造成本。
为了研究能源消耗碳排放的时空演变规律并进行“碳达峰”预测,该研究以山西省为例,基于1997-2020年夜间灯光数据反演该省碳排放量,并采用引力模型与标准差椭圆模型对高碳排放区展开为期20年的时空演变分析,通过长短期记忆网络模型对山西省“碳达峰”进行预测。结果显示,1997-2020年山西省碳排放量以5.8%的增长率呈上升趋势;太原市和大同市为高碳排放区,阳泉市为低碳排放区;太原对其周边城市碳排放产
文章基于DMSP/OLS、NPP/VIIRS夜间灯光影像和能源消费统计数据,构建像元尺度上碳排放模拟模型,估算2001-2019年重庆市能源消费碳排放,并结合夜间地表温度数据,采用空间自相关分析、相关性分析等方法,分析2001-2019年重庆市碳排放与夜间地表温度的时空变化特征和空间自相关分布模式,并进一步探讨夜间地表温度与碳排放的内在联系。结果显示:(1)2001-2019年重庆市能源消费碳排放
随着人们对于健康意识的逐渐加强,戒烟问题作为影响健康的重要因素已成为我国广泛存在的热点话题。吸烟除了为自身带来各种疾病,还会因二手烟的暴露严重影响他人的健康,所以戒烟问题越来越引起人们的重视。目前市场上戒烟辅助相关产品较少,大多为尼古丁替代药物,缺乏对戒烟系统性的管理产品。首先,归纳并整理了相关文献,系统性地概述了劝导理论与戒烟管理的特点及应用,探索戒烟干预、健康管理、劝导理论三者结合的可能性,并
型钢混凝土(SRC)结构因其承载能力强、变形能力良好等优点,目前在高层、大跨结构中得以被大量应用。我国规范建议SRC构件的含钢率不应超过15%,然而随着使用与设计要求的不断提高,已有部分工程应用了含钢率大于15%的高含钢率SRC结构。节点作为连接梁柱的重要枢纽,一旦发生破坏则会造成与其相连的构件全部失效,进而危及结构整体安全。国内外现有的关于SRC节点的研究均限于柱内含钢率小于15%的情况,而对于
随着信息化程度的提升,每天在网络上生成了海量的自然语言数据,这些数据具有极大的挖掘价值。实体识别是用来挖掘实体信息点的任务,实体识别的准确程度将直接影响以实体为支撑的后续自然语言任务。但是,基于深度神经网络的实体识别方法还存在着一些不足:(1)基于深度神经网络的实体识别模型是监督学习模型,监督学习模型对样本数据极度贪婪。然而,在实际的生产环境中只能用有限的标注成本标注少量样本,无法构建大规模的标注