统计语言模型N-best重排序算法的研究

来源 :哈尔滨工业大学 | 被引量 : 0次 | 上传用户:calltt_stephy
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
统计语言模型是自然语言处理中一个非常重要的研究方向。它使用统计学的办法来估计自然语言中词的概率分布并以此来计算一句话出现的概率。随着苹果Siri的推出、在线翻译系统的成熟、智能拼音输入法的普及,作为其中重要部分的统计语言模型也受到人们的重视。然而,统计语言模型毕竟是基于统计的,无法反映更多的语言学信息。因此,使用其他技术对语言模型的N-best结果进行重排序开始受到人们的关注。目前语言模型的重排序算法主要有这几种:通过对N-best结果进行词对齐,然后重新构成输出结果,重新计算得分,选出得分最高的作为新的最优候选;或者加入其它信息如词频和置信度来对语言模型输出结果进行重排序;或者通过将测试数据通过多个不同的系统输出结果,然后将这不同系统的结果进行融合。然而,这些方法都没有从语言学的角度来对N-best进行分析提高。针对语言模型N-best重排序,本课题进行了一系列的工作。第一、为了提高语言模型自身的准确度,使得重排序的效果更好,本课题首先建立了一个覆盖面广、数据规模较大的语料库,为一个性能良好统计语言模型的训练打下基础。第二、对训练所使用的字典进行筛选,得到一个实际效果不错的字典。在语料库使用选出来的字典进行模型训练。通过对是实验结果的分析,证明使用覆盖面广、规模大的语料训练出来的模型效果较好。通过选取出并合适的语料进行混合模型训练,得到一个效果不错的混合语言模型。从863的实验数据来看,混合模型取得了不错的效果。第三、上段提到的重排序算法都没有对N-best结果从语言学的角度进行分析改善,为此本课题提出了一种新的重排序算法,提出了词性N-gram模型和词性-词共现模型,通过插入子模型,从多角度反映N-best的其他语言特性,通过线性重排序的方法来将其他子模型与N-best结果联系起来,并使用最小错误率训练方法训练一组权重值,对N-best结果重新打分,重新排序选出最优的候选项。第四、将上面的语言模型和重排序算法在语音识别中进行应用,使用863数据进行测试,通过实验结果,可以发现使用大规模、覆盖面广的语料训练出来的模型具有较好的效果,提出的重排序算法也可以提高语音识别N-best最优候选项的准确率。
其他文献
  本文探讨了网络计费的现状,研究了目前基于QoS的计费技术热点,对下一代网络计费技术候选的计费协议、计费策略、数据采集技术以及相关计费方案、具体实现模式进行了全面的
嵌入式系统对实时性要求比较高,并且它的网络应用逐渐增多,因此,提高嵌入式系统实时通信的能力就显得非常重要。Linux是开源的操作系统,它的内核可以根据用户的需求自由定制,
  本文在研究B/S结构的基础上,开发了基于B/S三层结构的商业银行CRM系统,实现了网上银行系统的部分功能和数据驱动的邮件、短信收发功能。开发设计了适用于绵阳市商业银行CRM
在当今的讲求合作与效率的社会,工作流技术作为一个能够提高企业组织的办事效率和合作成果的技术,自诞生之初,就受到各界人士的关注和科研人员的热力追捧。但是当企业组织越
真实世界中的网络大多具有复杂网络的特征,如社交网络、因特网、交通网络、神经网络,蛋白质网络等。复杂网络是近年来的热门研究领域,其中的相互依赖的复杂网络的鲁棒性的研究也
计算范例已经经历了主机计算模式(Mainframe Computing)时代和桌面计算模式(Desktop Computing)时代,并开始跨入普适计算模式时代(Ubiquitous/Pervasive Computing)。普适计算
在全球化的市场竞争环境下,企业必须快速地响应市场的需求,通过快速调整组织结构及企业间的动态联盟充分发挥各自的优势,精诚协作,联合竞争,满足多变的市场需求,最终实现企业
目前武汉电信建设的通信电源集中监控系统包括动力设备及环境集中监控系统和远程图像监控系统。前者采用光纤以太网构建的交换局域网为传输平台,是计算机网络系统;后者使用专用
报表作为一种信息组织和分析的有力手段,是企业信息系统的重要组成部分之一。据不完全统计,系统实际应用的60%以上与报表相关。随着Internet的迅速发展,企业信息系统从传统的
记录仪是一种广泛应用于民用航空、军用航空、公路铁路调度、航海指挥调度、公安指挥中心、电力调度等领域的语音雷达数据记录设备。随着国民经济的发展,空中交通管制、公路