基于统计和潜在语义分析的混合语言模型的研究

来源 :哈尔滨工业大学 | 被引量 : 0次 | 上传用户:wencentss
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
语言模型在语音识别中占据着重要的地位,它担负着把拼音转化成汉字的重任,语言模型性能的好坏直接影响到语音识别的结果好坏。当前应用最广泛的语言模型是基于统计的语言模型。数据稀疏问题是统计语言模型所面临的主要问题之一。同时,由于统计语言模型只考虑了语言的局部信息,因此在统计语言模型中融入全局信息是很有意义的。当前应用于统计语言模型中的平滑技术有很多种,在语音识别中常用的有Katz平滑和Church-Gale平滑。为了在统计语言模型中加入全局信息,本文引用了Bellegarda提出的基于潜在语义分析的语言模型。该模型从文本全局内容的角度出发来预测词的出现概率,很好地弥补了统计语言模型的局部性,是统计语言模型很好的补充。通过对词—文档矩阵进行奇异值分解,所有文档和词都用相同维数的向量来表示,文档对词的预测能力就用它们所对应的向量的相似度来衡量。在统计语言模型和潜在语义分析语言模型的基础上构建了一种混合的语言模型,该模型同时包括了文本的局部信息和全局信息。为了比较混合模型和统计模型的性能优劣,采用了衡量语言模型性能的主要方法—困惑度。在实验中,采用Katz平滑方法构造了二元统计语言模型,并采用直接建模方法构造了潜在语义分析语言模型,将这两种不同类型的语言模型相结合得到一种新的混合的语言模型。实验结果表明,相对于单纯的二元统计语言模型,这种混合的语言模型困惑度有所下降,性能有所提高。
其他文献
传统的基于内容的图像检索系统返回给用户的是按照与查询图像相似性大小排序的目标图像序列,而目标图像之间的相似性在系统中被忽略掉,基于聚类的图像检索系统返回给用户的是
随着Web资源的不断丰富和增加,Web站点结构变得越来越复杂,传统的Web站点缺乏智能性和主动性,因此,面对复杂而庞大的万维网,人们不容易找到自己感兴趣的信息,同时Web站点和Web服务
无线局域网技术使得网络的接入方式不再受物理线路的局限,嵌入式技术使得通信设备向着微型化、低功耗、高性能的方向发展。本文研究的地铁无线通信系统正是无线局域网与嵌入
Web页面检索和推荐是搜索引擎中网络信息处理的重要组成部分,它可以自动地从网络文档中发现和抽取用户感兴趣的信息,对于构建主题式的搜索引擎具有重要作用。本文对主题式搜
手语是用手形动作辅之以表情姿势由符号构成的比较稳定的表达系统,是一种靠动作/视觉交际的语言。手语识别可以辅助聋人,通过计算机提供一种有效的、准确的机制将手语翻译成
目标跟踪技术是机载光电系统的核心技术之一,该技术用于在机载环境下完成地面背景的机动目标跟踪。本研究旨在改善该系统现有跟踪技术,提高单目标长时跟踪的性能。目前机载平台
GPS导航系统已经成为在精确打击武器方面有着广泛的应用。如果能成功破坏GPS系统的工作,就能大大减少新一代精确打击武器的效果,削弱敌方的侦察、调度、后勤保障等对于战争来说
二十一世纪是信息技术时代,同时也是生物技术时代,生物信息学正是二者的有效结合,它利用计算机科学技术解决生物学中的各种问题。随着人类基因组计划的完成,生物学走向以功能基因
对等网络(Peer-to-Peer)作为一种新兴的网络计算模式,打破了传统的C/S模式,其应用越来越广泛。随着P2P网络应用的日益盛行,分布式搜索技术已经成为搜索领域中研究的关键问题
燃烧假人测试,是指对穿着防火服装的等比例假人模型,施以实验室条件下、可控的高强度火焰,通过假人模型上分布的若干个热传感器测量和计算透过被测服装传到假人表面各部位的