基于内容的汉语语音检索技术研究与系统实现

来源 :清华大学 | 被引量 : 0次 | 上传用户:fly884531973
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
随着计算机及互联网技术的飞速发展,大量音频信息被保存和记录下来。而随着音频数据的累积,如何在海量数据中快速发现用户感兴趣的音频也就成为语音领域研究的热点问题之一。以语音识别技术为基础,前人提出了一系列语音检索方案。一种方案利用大词汇量连续语音识别技术将语音转换成符号信息,在此基础上建立索引以实现检索。这种方案具有通用性强,检索效率高的特点,被广泛研究。但是,语音识别与检索系统性能与速度一直是制约语音检索发展的重要因素,还需要进一步改进,才能使面向内容的语音检索可以实用化。同时,相对英文来说,汉语语音检索研究相对较少。汉语有其本身的特殊性,如何提高汉语语音检索系统的性能也是需要研究的问题。本文针对面向内容的汉语语音检索进行研究。关注语音识别与语音检索两方面。在前人语音识别研究的成果的基础上,希望利用更少的时间完成精确的语音识别,为语音检索系统提供一个优秀的前端。同时,对已有的检索工作进行改进,重点研究了基于词的汉语语音检索。同时讨论了基于音节的检索以及不同检索方案的融合问题。希望使用较少时间的同时实现更高性能的检索。为了达到上述目标,在语音识别方面本文采用加权有限状态转换器的相关技术构建语音识别网络。针对这种方案在语音识别时所遇到的一些问题,提出了“同步剪枝合成算法”,“基于状态转移数准则的空状态转移去除算法”以及“词典错位的网络构建算法”,有效地对识别网络进行了优化。同时,提出了“基于词格的快速词图生成算法”以进行快速语音识别。实现了一个语音识别系统WDecoder。实验表明,它比HDecode快6.7~9.5倍,比Juicer快3.6~4.7倍。在此基础上对检索进行了研究。提出了“查询内容扩展的语音检索方法”,对基于词的语音检索系统进行了改进。与基于词的检索基线系统相比,在用于测试的两个数据集上检索系统的EER相对改进了41.85%与41.00%。同时,针对语音检索系统检索速度相对较慢的问题,提出了“查询内容分组检索”方案,使得系统的检索用时相对减少了43.52%~72.03%。基于上述的研究与改进,本文最终实现了一个面向内容的汉语语音检索系统,实验证明,它可以高效高性能地完成对音频信息的检索工作。
其他文献
<正>在我国经济深度融入世界经济的新形势下,我国"走出去"企业转方式、调结构,积极参与"一带一路"建设。中信建设有限公司(以下简称:中信建设)作为中信集团海外基础设施投资
文化认同是人们对文化的倾向性认可,反映的是社会成员对特定文化的归属感。针对当前部分大学生出现一定的文化认同危机,红色文化作为消解当代大学生文化认同危机的一种有效载体
全面实施素质教育,是国家为培养适应未来社会发展需要的跨世纪人才而提出的极具远见的战略性决策。作为学校教育的重要组成部分——学校体育,既是素质教育的重要内容,又是实
我国民法通则关于诉讼时效期间的起算规定得过于简单,实践中关于未约定履行期限的债权、无效合同所生请求权、分期履行之债、合同解除后所生请求权等权利的诉讼时效期间的起
同伴互助学习是合作学习的方法之一,是突出学生主体地位的学习方式。它强调学生之间的互动,在互帮互助过程中,不仅能够激发学生的学习兴趣、提高学习成绩,更重要的是建立起学生之间积极互赖的人际关系,使学生在学习过程中学会如何与人正确交往。在课改的推动下,同伴互助学习被广泛地应用到学校的课堂学习活动当中,尤其是在中学。为了探索同伴互助学习在基层学校的开展情况,本研究以中学生物学学习为例,深入泰安市宁阳县学校
"秒杀"营销实质是一种限时低价促销,其与互联网的结合为客户创造了价格价值、时间价值和娱乐价值,同时也为提供"秒杀"商品营销的企业创造了访问量价值、广告价值、捆绑销售价
纳米技术被全球公认为21世纪最重要的、发展最快的战略高新技术之一,对电子信息、新能源、新材料、生物医药、生态环保等新兴产业发展有重大的引领带动作用。苏州市纳米技术及
<正>笔者在临床工作中发现,近年来甲状腺疾病的发病率呈明显上升趋势,其中有相当一部分属于甲状腺功能减退症。甲状腺功能减退症,简称"甲减",是由于甲状腺激素缺乏,机体代谢
会议
【目的】探讨湖南省农村3~7岁留守儿童情绪行为问题,为进一步干预提供参考依据。【方法】采用自拟儿童基本情况调查表、儿童长处和困难问卷(SDQ)对1 605例农村3~7岁儿童进行