基于混合模型的噪声补偿及其在语音识别中的应用

来源 :中国科学院自动化研究所 | 被引量 : 0次 | 上传用户:zfx523
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
当前在纯净环境下采用朗读方式的语音识别系统识别性能已经达到一个相当高的程度,在这种情况下,语音识别走向实际应用必须解决对噪声环境的鲁棒性问题和对说话人本身的鲁棒性问题。本文的研究工作属于前一部分,主要针对加性噪声环境进行鲁棒性研究,提出合适的噪声消除算法,并把这些算法应用到语音识别系统中,提高识别系统在噪声环境下的鲁棒性。 本文研究工作主要集中在功率谱域,频域和对数谱域,分析和研究采用混合模型进行噪声消除的算法。论文主要工作和创新点如下: ●在功率谱域,提出采用混合指数模型描述语音周期图分布,并在这个模型基础上构建了最小均方误差估计器实现对纯净语音能量谱密度的估计。 ●在复频域,提出采用高斯混合模型描述语音频谱分布,给出了语音频谱高斯混合模型构建算法。在这个语音谱高斯混合模型的基础上,本文分别构建了最小均方误差短时谱,幅值平方谱,短时谱幅值和对数谱幅值估计器。此外,本文在最大似然框架下提出了基于这个高斯混合模型的噪声估计算法。 ●对数谱域下实现的对语音特征的补偿是本文最重要的部分。本文在对数谱域的工作包括以下几点:首先提出采用高阶泰勒级数展开实现对对数谱域非线性环境函数的近似以寻求最合适的补偿形式,同时考虑对数谱高斯混合模型的建模精度问题,并且把对能量补偿引入进来,提出采用类似谱减的方法补偿语音能量。此外,本文还提出了把对数能量补偿和对数谱补偿结合在一起进行的方法。 由大词汇量连续语音识别的结果可以看出,频域的算法效果比较有限,这是因为这些算法主要是为了增强语音信号本身提出的,性能的提高主要反映在增强效果和小词汇量识别方面。对数谱补偿算法对语音识别系统抗噪声的效果相当明显,因为这是直接对语音特征本身的补偿。本文对对数谱补偿进行了详尽的分析和讨论,大词汇量语音识别的结果远高于噪声环境匹配情况下的识别性能,而后者曾被认为是噪声环境下语音识别性能的上限。
其他文献
切换系统是一类结构清晰、简单的混杂系统,具有广泛的实际应用背景。切换系统是当前控制理论界的研究热点之一。虽然十年来切换系统的研究已取得长足的进步,但仍有许多问题需要
PDM作为企业实施信息化的集成框架,已被越来越多的企业所采用。而实施PDM对企业的管理水平、计算机化程度、技术力量及投资有较高的要求,制约了其在中小企业的应用。EDM是PDM中
倒立摆属于多变量、非线性、不稳定、强耦合的快速系统,它的强非线性导致实现其控制较为困难,因此多年来对它的研究受到控制学界的普遍重视。对倒立摆的研究可归结为对多变量非
仿人机器人代表了当今机器人研究领域的最高水平,外形和动作都与人类高度相似的仿人机器人更容易被人类接受。目前仿人机器人外形上已经与人类非常相似,并且仿人机器人“双腿”
本文所研究的课题是电磁炉电气控制部分的设计。论文介绍了电磁炉的发展过程、工作原理、功能实现原理、硬件电路设计原理以及单片机程序的结构等。开发的电磁炉具有成本低、界面多、功能齐全等优点,有一定的市场竞争力。 硬件电路主要包括主回路、激励电路、控制电路、保护电路、电源电路和显示电路等单元回路,主要实现的功能如下:加热功能、定温功能、定时功能、无锅检测功能、报警功能,具体包括过热报警、过压或者欠压
物流作为集现代运输、仓储管理、产品流通加工、配送、客户服务以及信息网络整合于一体的综合服务业,对其进行正确、有效的决策显得越来越重要,这不仅因为它在国民经济和社会
本课题源于国家自然科学基金资助项目“网络环境下的智能控制理论及方法研究”和实验室建设项目。论文综述了远程实验技术的兴起、现状以及发展趋势。基于控制学科信息化、网络化的趋势和远程教育的发展,阐明了数字伺服系统远程实验平台的设计需求。在对数字伺服系统远程实验平台进行需求分析的基础之上,给出系统设计的总体方案以及系统开发的重点和难点。通过对系统功能的分类,设计实现了实验系统网络控制、实验室网站、远程视频
本论文围绕深海多金属结核集矿机的水下声学定位和路径规划算法展开研究,主要包括水下声学定位系统研究和与路径规划算法设计两大部分,工作的目的旨在提高现有模型集矿机的水
OPC(OLE for Process Control)作为一个重要的工业标准,目的是为工厂底层设备或者控制室数据库中的大量数据源之间的通信提供一种标准的通信机制。它把硬件厂商和应用软件开发
随着中国社会和经济的高速发展和城市化进程的加快,许多城市都开始被交通拥挤和随之而来的环境污染等问题所困扰.与其他机动化交通方式相比,常规公交(通常为公共汽车)具有投