汉语广播语音识别系统的研究

来源 :中国科学院自动化研究所 | 被引量 : 0次 | 上传用户:windyson
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
广播语音识别技术的研究是当前大词汇量连续语音研究的一个热点问题。广播电视新闻节目包括了说话人、方言口音、声道变化、声学环境的一系列声学的复杂特征,对于语音技术的实用化研究是一种理想的研究对象,对于语音技术走向实用化方面有着重大的意义。本文针对广播语音识别系统中的关键问题,在以下几个方面进行了广泛和深入的研究。 首先,在广播语音的音频数据切分方面,本文提出了一种基于检测熵变化趋势的变窗长音频特征跳变点检测方法。本文提出的方法在一个固定的数据窗内,通过检测窗内所有可能跳变点的熵的变化趋势来最终确定真实的音频跳变点。这种方法不同于传统的基于BIC准则的音频跳变点检测方法,避免了由于设定固定门限而导致引起漏检和数据积累带来的累积误差。在分类的过程中,用分组高斯方法代替传统的高斯混合模型(GMM)分类器,取得了更加准确的分类结果,实现了快速高效的基于矢量量化的多码本聚类算法。 其次,在广播语音识别系统的自适应训练方面,本文提出了一种基于子空间聚类的多层MLLR自适应算法,这种算法在子空间框架下对高斯模型进行聚类,基于目标驱动的原则,通过引入反馈机制,根据自适应数据的似然概率的增加动态的决定自适应变换类的数目。通过采取子空间聚类的策略,大大减少了待估计参数的数目。实验结果表明,本方法在自适应数据比较少的情况下,有着比传统基于自适应回归树算法更高的识别率。在无监督自适应方面,本文对可信度机制做了一些探讨,通过合理的引入可信度机制可以提高系统无监督自适应的性能。 最后,在广播语音的声学建模方面,针对现有对角方差建模的缺陷与不足,在空间旋转变换的理论基础上,结合部分方差共享(STC)的模型补偿方法,本文提出一种基于共享状态空间旋转变换的相关特征建模方法(TyingSSR)。通过状态空间旋转变换方法(SSR),在变换后的新的特征空间实现解相关的目的,在新的不相关的空间采用对角方差建模技术对声学特征进行精确建模。以似然概率损失最小为原则,对变换矩阵进行合并共享,通过BIC准则方法确定最终的合并类数,最后用部分方差共享技术对变换矩阵的参数进行模型补偿和重估。避免了由于变换矩阵过多,在识别解码阶段增加系统的存储空间和运算量的增加。
其他文献
社会核算矩阵(即Social Accounting Matrix, SAM)是以矩阵形式表示的SNA 账户,它刻画出供给表与使用表同部门账户间的联系; 它反映了一定时期内社会经济主体间的各种经济联系
1857年奥蒂斯公司安装世界上第一台载人电梯至今,已经过去了近150年。这期间,随着经济的繁荣,科学技术的进步,世界上出现了许许多多的高层建筑和智能化建筑。电梯,作为高楼交通的
航空航天技术和舰船导航技术的迅猛发展,对导航制导设备性能及精度的要求不断提高,进行系统的摩擦分析及补偿研究对于设计结构简单且性能优良的系统具有重要的应用价值。
船舶自动化是现学船舶的一个重要标志,而船舶的状态监测作为现学船舶自动化的一部分,对于保证船舶设备的正常的运行以及船答的研命财产安全具有十分重要的意义。传统的船舶状态
地下采矿是全球最危险的工作之一,在过去的二十年,在诸如火灾、落石、洪水、有毒气体等重大事故中均有重大人员伤亡和巨大的生命和财产损失。生命的伤亡和财产的巨大损失破坏了
目前,智能移动机器人的研究受到了越来越多的关注。自主导航是保证智能移动机器人能够实现自主运动的一个重要技术。自主导航分为四个任务:环境的感知与建模,机器人定位,机器
由于企业信息化建设的不断深入、软硬件资源的升级和各种应用的扩展,造成了多种异构数据库并存的问题。其异构性表现为多方面:数据模式不同、同一种数据模式下的不同产品和同
签名是一种使用广泛的识别身份的生物特征,自动签名鉴定的研究具有重要的应用价值和社会意义。但是到目前为止,已经取得的研究成果离这一问题的彻底解决还有很大的距离。在国
随着计算机技术和通信技术的发展,网络视频和流媒体技术发展起来。为了满足人们对视频信息的需求,国际电信联盟(ITU)和国际标准化组织(ISO)/国际电工委员会(IEC)联合制定了新一
近二十余年来,随着我国工农业生产和国民经济的高速发展,城镇居民快速增加,水环境,特别是城市内河的污染越来越严重。对城市内河日益严重的污染状况加强监测和治理,是惠及广大人民