基于数据聚类的语言建模研究

来源 :中国科学院自动化研究所 | 被引量 : 0次 | 上传用户:zhuhao0000
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
语言模型是语音识别系统中至关重要的部分。目前,语音识别技术正在进入应用发展阶段,语音识别的研究也走向更加广泛的应用领域和更加复杂的识别任务。在这个过程中,研究基于数据聚类的的语言建模技术和语言模型自适应技术,可以为语音识别技术走向更加广泛的应用打下良好的基础。本文针对语言建模中的数据稀疏问题,主要进行了以下几个方面广泛而深入的研究。   首先,在基于词聚类的语言模型方面,本文研究实现了基于Mod-KN平滑的层次化词类语言模型。这种模型优先使用更为具体的语境,在数据不足的情况下根据一棵层次化的词类树进行回退。相比于国际上基于Good-Turing平滑的方法,本文实现的基于Mod-KN平滑的层次化词类语言模型具有更高的精度,在已知事件和未知事件两部分都能够降低模型的困惑度,提高系统的识别率。   其次,在基于历史聚类的语言模型方面,本文提出一种基于共享回退的随机森林语言模型,并首次将随机森林语言模型应用到语种识别领域。这种模型能够减轻决策树分裂过程中由于贪心算法造成的过训练问题,对未知事件部分的预测更加准确。本文提出的基于共享回退的随机森林语言模型,在保持每棵决策树原有随机性的基础上,进一步提高了模型的鲁棒性。在语种识别中,性能比目前常用的Ngram模型和决策树模型获得了显著的提高。另外,在语音识别系统中,本文还把随机森林语言模型和层次化词类模型相结合,进一步降低模型的困惑度,提高系统的识别率。   第三,在语言模型的自适应方面,本文提出一个面向广播语音识别的语言模型自适应框架。本文将语言模型与识别任务之间的语言差异分为三类:词典差异、风格和内容差异以及模型的概率分布差异。基于这种分类,本文提出的一个面向广播语音识别的语言模型自适应框架,联合多个技术减小模型与任务之间语言差异。该框架联合了以下技术:一种新的非迭代的新词提取方法,一种新的中文开放式词典语言模型,一种基于困惑度的背景语料筛选方法和一个Ngram概率分布自适应模块。实验表明,在中文的广播语音识别系统中,该框架使系统性能提高了10%。   最后,本文提出一种基于模板匹配的语音识别结果纠错方法。该方法的特点包括:无需显式的对识别结果检错,避免了检错环节带来的错误;利用置信度对结果切分,使用短的识别片段纠错;利用编辑距离和声学混淆度比对识别片段和纠错模板,提高纠错结果的可靠性。实验表明,这种纠错方法在模板库覆盖度较好的情况以及覆盖度一般的情况下都能够提高系统的识别率。
其他文献
电视导引头陀螺稳定平台是电视精确制导武器中的核心系统。本论文围绕如何提高陀螺稳定平台伺服控制系统稳定跟踪性能这一重要课题,对某型号电视导引头三轴陀螺稳定平台研制
具有资源约束的项目调度问题因其实际和理论意义一直是调度领域的重点内容。以往研究者提出了多种多样的算法,这些算法主要侧重于采用不同的算法结构和数学技巧来进行研究,很少
学位
脉冲推力下轨道机动己研究的比较成熟的是Holmmann转移,Lambert转移,以及基于线性化Hill(C-W)方程的轨道优化等。而一般情况下的轨道机动问题现今还没有得到很好的解决。当前的
静止无功发生器(STATCOM)作为柔性交流输电系统(FACTS)中一个重要的组成部分,它将电力电子技术、计算机计算和现代控制理论技术融合一体运用于电力系统,通过对系统输出的电压
人脸建模和动画在动画制作、人机交互、医疗和教育等领域都具有重要的应用和研究价值。本文以基于图像的快速、自动个性化人脸建模和动画为主要研究内容,围绕其中的关键点控制
基于模型直升机开发出来的小型旋翼空中机器人在近几年中得到迅速发展,并依靠其较高的灵活机动性,在各个领域展现出其独特优势。但是,由于小型旋翼空中机器人系统是一个极不
相关滤波器方法已经被广泛地应用在自动目标检测和识别以及生物特征识别等领域中。已有的研究工作主要集中于如何构建描述能力更强的优化目标函数,并在此基础上设计更加复杂的
目前对阶段结构种群动力学模型的研究是生物数学研究领域的一个热门课题.这不仅因为阶段结构模型比相应的偏微分方程模型数学上更容易处理(前者模型中的参数能够具体化),而且因
常规能源的耗竭和由此引发的生态环境问题促使人们努力开发新型能源,以化石燃料为结构主体的传统能源体系将逐步过渡到以新能源和可再生能源为主体的新型能源体系。风力发电
信息化改造是军用车辆重要的发展方向,当前车载武器系统的接口形式多样,设备之间相互通信困难,信息共享程度低,已经影响军用车辆性能的提高。针对这一现状,并结合相关技术,本