声学空间归一化在鲁棒语音识别中的研究

来源 :中国科学院自动化研究所 | 被引量 : 0次 | 上传用户:hufeng274240003
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
语音识别的鲁棒性问题,是语音识别技术进入实际应用所遇到的主要问题。鲁棒性问题产生的根本原因是由于声学空间的多样性而导致的训练与识别的失配。一方面,这对于区分不同的语音建模单元(如音素)是必要的;而另一方面,语音信号中存在着大量识别过程无关的多样性因素。它主要包含以下两个方面的因素:环境和说话人。本文分别在特征空间进行归一化,消除环境和说话人的影响,并在自适应声学建模的框架下进行声学模型训练,以提高语音识别系统对环境和说话人的鲁棒性。主要内容如下:   ⑴在噪声自适应训练框架下(NAT),提出一个基于ETSI AFE的改进的抗噪前端,该前端使用对数谱域环境函数的VTS展开得到的参数估计,用以进行维纳滤波器的构建。在2005年863评测桌面系统测试的真实噪声环境下,提出的抗噪前端对比AFE和VTS对数域补偿算法,系统字错误率绝对下降1~2个百分点。   ⑵在自适应声学训练框架下,提出了一个改进的声道归一化训练算法,将用于切分的高精度声学模型同退为单混合,用于鲁棒的估计弯折因子。在RT_02的新闻广播(Broadcast News,BN)测试集Eva02上取得绝对错误率0.7%的系统字错误率下降的性能。   ⑶提出针对环境和说话人的联合归一化前端,在噪声环境下首先对语音进行抗噪,并在此基础上进行声道归一化,使得生成的归一化声学模型更加紧致。初步试验表明,这种联合归一化具有可加性,使得字错误率相对单纯的环境补偿进一步降低。
其他文献
工业过程本身的物理特性存在延时,信号转换需要延时,网络通讯延时和计算延时等因素也无法忽略,这些都决定了时滞效应广泛存在,而普通的控制方法对时滞系统的控制效果并不理想。为
永磁材料的发展,特别是高性能永磁材料(例如钕铁硼永磁)在电机中的应用,为永磁同步电机的研制和推广应用开辟了一个十分广阔的空间。同时随着电力电子器件以及数字处理芯片的发
生物信息学已经成为整个生物学发展的重要组成部分,用数理和信息理论与技术去分析生物信息,开展生物信息学研究将极大地推动生命科学的进步。随着各种生物数据的快速增加,如何处
学位
随着技术的发展和数字产品的价格下降,家用机器人必将成为未来数字家庭的主导。正如家用机器人生产厂商iRobot的CEO科林·安格尔所说:“我认为,完全有理由想像,10年之后每个家庭
聚合物驱油是用聚合物水溶液代替水作驱油剂的一门三采技术,聚合物溶液粘度是该技术的关键参数。近年来,国内各大油田都是采样后,在实验室测量。显然,用这种结果定量描述整体的聚
计算机植物绘制是计算机图形学的一个重要分支。计算机植物绘制研究的目的是如何以计算机为手段,生成虚拟植物的图像。虚拟植物可以代替真实植物进行模拟试验,并且真实感的植物
超声波金属介质厚度检测系统是通过超声波在介质中传播载上介质厚度信息,然后采用简便、可靠的信号处理方法,将此信息转换成为厚度信息,并经人机交互使用户得知介质厚度值。与传
虚拟现实中的自主式跟踪技术是虚拟现实技术和增强现实技术的重要组成部分,对虚拟现实系统和增强现实系统的实现、完善以及发展具有重要意义。本文国家863计划资助项目(2006AA
论文提出了基于移动GPRS网络构建地质灾害远程无线监测系统的方案。利用GPRS的无线Internet接入功能,研制通讯装置GPRS DTU(Data Terminal Unit)并建立与接入Internet的服务器
声波测距作为无损检测技术的一种,广泛的应用于工业生产等各种社会生活当中。但是,高精度的声波距离测量往往需要价格昂贵的高频声波测距仪器,较低频声波的测距现在还不能达到很