汉语语音检索中基于音节和词语言模型的索引方法研究

来源 :第九届全国人机语言通讯学术会议 | 被引量 : 0次 | 上传用户:accbacc
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
本文研究汉语语音检索中基于音节和词语言模型的索引方法。首先介绍利用音节Lattice建立索引的方法,采用了基于后验概率的置信测度。之后在使用相同声学模型和语言学模型训练语料的情况下,分别使用音节语言模型和词语言模型进行解码,得到含有不同基元的Lattice。将含有多音节基元的Lattice拆分成只含有单音节基元的Lattice,用其作索引有效地避免多音节基元影响OOV 词检出的问题。最后对利用两种语言模型生成的Lattice进行规模、错误率和词检出性能评测。与只用音节语言模型的Lattice索引相比,利用词语言模型生成的Lattice经转换之后得到的索引,表现出更好的词检出性能。
其他文献
本文介绍了基于新的声道长度规整(VTLN),基音和异方差线性判别分析(HLDA)的有调语音识别系统。传统VTLN 能提高基本音节的识别率,却不利于声调的识别,本文提出新的VTLN,提高基本音节
会议
首先对传统的回声消除中的双端发声检测机制进行了分析,指出这些检测算法都存在一定的延时,导致在检测到双端发声之前滤波器已经一定程度地发散,从而影响双端发声段中的回声消除
本文根据双源谐波模型给出了一种提取语音信号清浊音分量的方法。该方法主要利用语音浊音分量的准周期特性,利用一组调频调幅的正弦信号和来逼近。在通过自相关法获得基音周期
会议
本文首先简要介绍了基于特定域口语对话系统错误处理的研究现状。利用汉语中词(字)发音相似或相同的特点,结合特定应用域的语言模型,我们提出了一种新的汉语口语对话系统错误处
本文主要介绍了基于子词加权得分的言语信息验证系统。传统的言语信息验证系统中,整句语音得分是由子词得分直接相加求得。本文使用在线废料模型计算子词置信度,考虑不同子词在
语言监测必然要面对大量的未登录词。本文依据词汇的时间分布信息,提出了未登录词提取的新方法。词汇的时间分布信息是语料本身所蕴含的基本分布信息,但常常被忽略或者说难以运
随着地方医疗保障制度改革的不断深入 ,人们卫生观念的不断增强和医疗需求的增长 ,部队卫生工作也面临着许多新情况和新问题。如何在新形势下更好地指导部队卫生工作 ,提高卫
八月初出版的“商(?)周刊”预料:一百家大的公司将(?)二文大戰时一样,取得军事合同的最大部分。二次大戰期间,美国会交出来一千七百五十亿六千三百万美元的订货。在这一数目
保守党的英国对外政策和工党的英国对外政策在基本上是一致的。在这次竞选中,两党在它们所提出的政纲中对于某些基本问题所表示的态度彼此没有什么不同,尤其对于英国因进行
以语篇中语句的焦点为核心,以语料库为基础,研究了汉语文本语篇中焦点确定的方法和思路。研究发现,在充分理解语篇的基础上,人们对文本语篇中语句焦点的判定和标注整体上是趋于一