具有混响鲁棒性的远距离语音识别方法研究

来源 :重庆邮电大学 | 被引量 : 0次 | 上传用户:bvf
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
尽管当前语音识别技术已经取得了广泛的应用,但是在封闭环境中进行远距离语音识别时,由于受到混响效果的影响,从而存在语音识别率下降的问题。因此,如何减小混响效果的影响,降低训练语音与测试语音之间的差异性,成为远距离语音识别的难点。本文分别对远距离语音识别中的模型域补偿与实时性提升两个方面进行了研究。   首先,基于混响建模(REverberation MOdeling for Speech recognition,REMOS)的模型域补偿理论,利用最大后验概率的原理,基于对房间不同区域进行有区别补偿的思想,在按帧的隐马尔科夫模型(Hidden Markov Model,HMM)补偿的基础上,对基于混响模型补偿的模型白适应方法进行了改进。该方法利用K均值聚类(K-means)算法对房间冲激响应(Room Impulse Response,RIR)的优化集进行聚类,对所属相同类的混响模型进行合并处理。然后把合并后的混响模型载入维特比(Viterbi)算法中,对清晰语音的HMM模型进行按帧的补偿。最后采用后验概率的方法选择最佳补偿,使得模型域的混响补偿能够最接近精确补偿。   其次,在基于混响模型的模型域补偿方法中,将自适应阈值思想应用到新方法中,由此达到提高方法实时性能的目的。首先对影响混响补偿实时性的三个因素进行了分析,然后通过确立一个自适应阈值函数,在维特比解码时期判断当前系统性能与阈值函数之间的关系,动态调整相应的补偿参数,从而在混响补偿的同时提高系统的实时性。   最后,基于开源语音识别库ATK开发了一个远距离语音识别原型系统,其中系统所需的声学模型文件通过语音识别工具包HTK训练得到。该系统能实时地从输入语音流中提取语音帧特征,产生并加载混响模型文件,输出识别结果。实验测试表明该系统能较准确地识别不同混响环境下的语音数据,并具有较好的实时性。
其他文献
作为数据融合的一个重要分支,图像融合技术在图像处理领域中是一个研究热点。多聚焦图像融合是图像融合的一种,多聚焦的产生是由于目标物体的景深不同导致聚焦或者失焦,使得图像
地球表面三分之二以上的面积是为海洋所覆盖,海洋中有着丰富的尚未完全开发的资源。随着世界经济的发展,人类对于能源的需求日益增长,而陆地上的资源经过长期的开采,已经渐渐匮乏
智能交通技术是解决城市交通问题的主要途径。其中,基于数字地图的导航服务作为智能交通系统中的主要内容之一,已经得到广泛应用。同时,基于交通标志识别的视觉导航技术对实现车
随着信息技术的高速发展,云计算在人们的生活中扮演着越来越为重要的角色。云计算利用虚拟化技术将分布在不同地域的计算资源进行整合,实现基础设施资源的共享,用户可以通过终端
在数字媒体技术领域,3D游戏引擎是一种重要的游戏开发手段。引擎中的渲染技术已经成为国内外研究的热点,也是受关注程度最高的关键技术之一。近几年3D游戏引擎在Android平台上
地震灾害带来了大量的人员伤亡及财产损失,严重威胁人类安全和社会稳定,震后的应急救援显得非常重要。近年来,越来越多的志愿者参与到震后应急救助过程中,是对紧急状态下政府应急
实现用户/租户的信息资产安全与隐私保护是云计算安全的热点和难点问题。云存储是实现云计算服务的基本条件,而云存储服务大规模应用的关键是保证用户的数据安全,其中的难点之
随着通信技术的快速发展3G技术已经较为成熟,目前各国正积极发展4G技术,希望在4G技术市场上取得优势。我国在3GPP(3th GenerationPartnership Project)推出的LTE(Long Time Evo
无线Mesh网络(WMN)作为新型的无线宽带接入技术,已引起国内外越来越多的关注。在目前的研究工作中,如何结合无线Mesh网络的自身特点,设计高效的无线Mesh网络十分重要;而路由协议
对于加密数据检索的研究是云安全领域的一个重要研究方向。加密数据的检索主要分为基于关键字索引的可搜索加密技术和基于全文扫描的密文检索技术。在本文中将对基于关键字索