中文关键词检出系统的研究与实现

来源 :重庆邮电大学 | 被引量 : 0次 | 上传用户:wangwenhu8
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
关键词检出技术就是从连续的语音流中检测并识别出表征预定义关键词表中单词的语音段的一种技术。本文讨论的关键词检出技术基于概率统计方法的语音识别技术。一个完整的关键词检出系统应该包含三大模块,分别是声学模型、识别模块和后处理模块。其中声学模型的训练虽然不在   关键词检出系统的研究范围内,但是却是必不可少的部分;识别模块主要研究的是语音段的发现和对齐的问题,若采用连续语音识别的方法,还应该考虑剪枝的策略;后处理模块主要是通过设计一种置信度方法,对识别阶段的输出结果给出置信分数,也是给出衡量一个关键词检出系统性能参数的模块。   本文研究的重点是可定制的中文关键词检出系统,研究分为以下几个方面:   基于上下文相关的扩展声韵母(eXtended Initial/Final)的中文语音基元的建模和利用决策树对模型规模的限制。通过上下文相关的扩展声韵母,有效的解决了可定制词表的关键词识别系统的实现问题;利用中文语音的先验知识,采用决策树方法对模型的状态和参数进行了共享,有效的限制了大词表关键词检出系统中的模型数量膨胀的问题。   提出了N-Best的多条路径决策的不匹配帧加权的置信度方法,并作为关键词检出的后处理部分的实现。普通的基于驻留归一化的方法无法利用N-Best路径的决策信息,而部分采用N-Best的置信度方法又无法详细刻划连续语音中关键词附近的识别效果,采用综合N-Best多条路径的信息并利用不匹配帧描述关键词附近的信息以进行路径得分的加权的置信度的方法很好的解决了这个问题。
其他文献
网络化控制系统是一种通过信息传输网络连接形成闭环控制回路的控制系统,信息的网络传输必然存在网络传输时延问题,当网络时延达到一定程度必然会影响到控制系统的稳定性及控
形状匹配是计算机视觉研究领域的一个热点问题,它是图像自动识别和理解的基本问题之一,且有广泛的应用领域。虽然人们已经对它开展了大量的研究工作,但针对非刚体形变的匹配
学位
随着当今高速纸机的快速发展,其设备状态监测与故障诊断技术在高速纸机中已经得到了广泛的应用,而国内故障预警在造纸机上的应用相对于其他工业总体水平不高,还处于缓慢发展过程
学位
胃肠疾病是一种常见病、多发病,其发病率约占总人口的10%~12%。胃肠动力学是一门正在迅速发展的、多学科交叉的新兴学科。近年来,采用无创生物阻抗方法提取胃肠动力学信息成为研究
电动机作为重要的动力装置,已广泛用于工业生产中。在交流异步电动机的起动控制上,传统起动方式的一些弊端也显示出来了。对于一些较大功率的电动机,如不采用任何起动装置的情况
学位
电力系统中的谐波具有很大危害,对电网中的谐波进行分析,为谐波整治提供依据,具有重要意义。目前,电力系统谐波分析大多采用DSP实现,要满足系统实时性要求,就要采用价格昂贵
学位
本文主要研究对象是GAMMA300型机械臂,是具有一个冗余自由度的七轴机械臂,它由美国的ROBAI公司设计生产。主要对研究对象在系统建模、正逆运动学、动力学、轨迹规划方法和轨
低秩表示方法是将观测数据分解为低秩块与稀疏块和的形式的一种手段,由于该方法对噪声具有较好的鲁棒性而受到广大学者的关注。目前,低秩表示方法已经比较多地用于人脸识别,
随着我们国家城市化的不断发展,我国交通需求尤其是在客运方面的出行需求不断增长,这导致交通量运输量的不断增大,从而使得碳排放量急剧上升,由于现在温室气体对全球环境影响