基于计算听觉场景分析的单声道语音分离研究

来源 :中国科学技术大学 | 被引量 : 0次 | 上传用户:xiaoxiao1946
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
在现实环境中,语音信号往往受到来自不同声源的背景噪声的干扰。噪声会极大地降低语音信号的质量和可懂度,进而严重阻碍语音技术在实际中的应用。因此,如何从混合信号中提取出目标语音成为制约语音技术发展的一个瓶颈问题。根据系统中可使用的拾音器的多少,相关问题被称为多声道、双声道或单声道语音分离问题。其中,尤以单声道语音分离问题的求解最为困难。本文主要研究单声道语音分离问题。借助于计算听觉场景分析技术,我们对听觉分割、听觉重组和听觉特征分类进行了深入研究。在此基础上,提出了可以有效改进单声道语音分离效果的一些方法。本文的主要贡献如下:1.提出了基于组合线索和区域能量分布的听觉分割方法。在听觉分割环节,来自单一声源的邻近时频单元被合并成听觉片段。在该方法中,我们根据组合线索(包括互通道相关、时域连续性、起始和终止)将高频区域的时频单元合并成听觉片段。不仅如此,我们还根据混合信号的区域能量分布来估计听觉线索在高频区域的可信度,并以此来指导听觉分割过程。实验结果表明,该方法通过生成更加可靠的听觉片段,提升了分离系统的性能。2.提出了基于通道能量分布的听觉重组方法。在听觉重组环节,来自同一声源的听觉片段被重组到对应于目标语音和噪声的听觉流中。在该方法中,首先根据周期和幅度调制原则将听觉片段重组到听觉流中。然后,基于混合信号在频率通道的能量分布,在高频区域找出被噪声干扰严重的时频单元,并将它们从目标听觉流中去除。实验结果表明,该听觉重组方法可以从目标听觉流中去除更多由噪声主导的时频单元,从而改善了系统的分离效果。3.提出了基于组合线索和能量分布的听觉组织方法。在听觉组织阶段,混合信号的时频单元被分配到对应于目标语音或者噪声的听觉流中。该组织过程主要包括听觉分割和听觉重组两个环节。我们将所开发的听觉分割和听觉重组方法融合在一起,使之共同参与改进听觉组织的过程。实验结果表明,基于该方法的分离系统的性能优于之前的系统,尤其是在高频区域。4.提出了基于谐波和能量特征的单声道语音分离方法。该方法将语音分离问题转化为声音在时频域的分类问题。首先,在已有谐波特征的基础上,引入能量特征。然后,对于谐波特征明显且能量大的时频单元,在分类器训练阶段复制它们的特征,从而使得分类器对此类特征有更好的刻画能力。实验结果表明,该方法相比之前的方法有更好的语音分离效果。
其他文献
高职校企文化融合不是校园文化和企业文化的简单嫁接、硬性组合,而是在高职教育的大环境中构建多元互动、相互影响的“四层一线”(“四层”指精神文化层面、制度文化层面、行
体育旅游是在20世纪90年代初进入我国人民生活的,现在已逐渐为我国人民所接受,近几年正呈蓬勃向上之势。2008年北京奥运会的举行,我国人民对体育的热情空前高涨,体育旅游也日
本文通过对买卖不破租赁规则产生的社会背景、立法价值取向的分析,说明其当时在各国产生的必要性,在构建和谐社会的今天对我国仍有借鉴作用。在我国的政治和经济体制的改革进程
铁路轨道因初始弯曲、运行变形、磨损等原因,会产生垂向、水平以及轨距方向的不平顺。轨道不平顺是车辆振动的主要激振源,将产生车辆沉浮振动、横向滚摆、左右摇摆、侧滚等耦
当代互联网和多媒体设备使用的快速增加造成了通信网的拥挤。现行的无线微波通信出现带宽资源缺乏的现象,重新引起了人们对自由空间光通信系统(FSO)的关注。用激光作为信号的
<正> 一、环境优先污染物的概念随着化学工业的迅猛发展和化学品的大量使用,越来越多的化学品已经或正在广泛地进入环境的各个领域。目前,美国《化学文摘》登记的化学品已逾7
药物不良反应(ADR)指合格药品在正常用法用量下,出现与用药目的无关的有害反应。富马酸喹硫平是非典型抗精神病药,作为精神分裂症的一线治疗药物,对精神分裂症、老年期精神障
回 回 产卜爹仇贱回——回 日E回。”。回祖 一回“。回干 肉果幻中 N_。NH lP7-ewwe--一”$ MN。W;- __._——————》 砧叫]们羽 制作:陈恬’#陈川个美食 Back to yield
孙升先生是南京本土的知名品牌设计师,他从政府项目、产业园区和具备国际影响的会议形象设计,到百姓爱吃的青团、绿豆糕营销设计,受众之宽,作品之丰,这样实战型的设计师非常难得。
期刊