基于稀疏表示和深度学习的欠定语音分离方法研究

来源 :大连理工大学 | 被引量 : 0次 | 上传用户:turbomeng
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
语音获取过程中不可避免地会受到环境噪声或者其它竞争声源的干扰,采用语音分离技术从带噪语音信号中分离出目标语音,是语音处理领域亟待解决且非常重要的问题。人类的听觉系统可以很轻松地将混合语音信号中的各路语音分离出来,但是对于语音分离系统而言,实现这样的分离任务却是极其困难的,尤其是在欠定情况下,即混合信号通道数小于源信号通道数,或者只有一个通道混合语音的情况。本文着重研究解决欠定混合下的语音分离问题,具体包括以下几个方面:(1)针对欠定卷积分离问题,本文分析了多种稀疏约束函数以及目标函数结构的优劣,给出了一种基于lq(0<q<1)范数的欠定卷积混合信号分离方法,该方法使用lq(0<q<1)范数来进行稀疏约束,并引入了对源信号时频谱的低秩约束,来更加精确地恢复源信号。推导出一种基于Proximity算子的对偶优化算法来对目标函数进行求解。在BSS Oracal数据库上,本文分别进行了语音和音乐的欠定卷积分离计算机仿真实验,实验结果表明,本文提出的方法有效地完成了欠定卷积混合情况下的分离任务。(2)针对单通道语音分离问题,本文给出一种基于时域卷积神经网络的单路混合语音分离方法,该网络的输入和输出都是时域语音信号。相比于传统的输入时频特征的神经网络而言,该结构具有以下两个优势:通过网络自动学习特征;不存在相位恢复的问题。这样的时域卷积神经网络可以将特征提取与分离语音融合在一个端到端的系统中,可以更加有效地完成语音分离的任务。为了进一步提高本文方法的分离性能,给出一种融合混合误差的目标函数,用来对时域卷积神经网络进行优化训练;同时,在网络的输出端,采用时频掩蔽模板对分离语音进行处理,以获得更好的听觉感受。本文在TSP语音库上进行了大量的计算机仿真实验,并与对比方法在相同的评价体系下进行了对比,实验结果表明本文给出的方法可以有效地提高单路语音分离的性能。
其他文献
涉农中小经营组织融资效率的提升有赖于区域金融产品和服务的发展。基于对河南省16个县市涉农中小经营组织的问卷调查分析,对县域经济开展融资效率与全要素生产率进行测度分
第一部分 采用模拟早期康复方案比较锁扣阻挡改良Krackow和其他三种缝合技术修复跟腱断裂的生物力学研究目的:采用模拟早期康复方案比较锁扣阻挡改良Krackow(Locking Block M
本文运用AHP(层次分析法)的核心理念,结合基层央行的履职目标和业务特点,从经济性、效率性、效果性三个层面,构建了基层央行人力资源绩效审计评价模型。同时,采用模糊综合评
本研究对我国2016年各大纸媒公开报道的34起典型校园欺凌事件的地域特征、主客体特征、过程特征、结果特征进行具体分析,结果显示:校园欺凌事件较多发生在小学高年级及初中阶
巴拿马位于中美洲,它是中美和南美的联结点,又是大西洋和太平洋的交通要道。在巴拿马运河南北两端各有一座名城,南端临近太平洋的是巴拿马首都巴拿马城,北端临近大西洋的是巴拿马
1988年3、4月,陕西扶风法门寺塔地宫出土文物在北京中国历史博物馆展出期间,本刊编辑部和陕西省考古研究所约请在京部分文物考古专家以笔谈形式评述这批唐代文物珍品。现按所
股骨头坏死作为一种骨科常见疾病,拥有极高的致残率,且其发病逐年呈年轻化趋势,严重影响患者的生活质量。因此,早期防治股骨头坏死显得格外重要。外泌体是由细胞分泌的直径约
<正>急性细菌性结膜炎是眼科常见疾病之一,多发生在春夏及夏秋交替季节,主要致病菌为金黄色葡萄球菌、肺炎双球菌、流感嗜血杆菌、科—韦杆菌等[1]。急性细菌性结膜炎临床上
水体污染具有明显的复合性特征,低浓度、种类复杂的有毒有害污染物共存,研究水体复合污染对水生态系统和人体健康的影响具有重要意义。人骨髓间充质干细胞具有自我更新和多向
帮助学生发展科学本质(Nature of science简称NOS)的知情观点是科学教育的核心目标,美国科学素养基准和科学教育标准将科学本质描述为科学素养的一个关键组成部分,《科学(7-9年