在汉语语音识别中语速、音量和音调调整的研究

来源 :西安电子科技大学 | 被引量 : 0次 | 上传用户:aiming5968f
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
人耳听力具有较强的自适应调整能力,其中对发音人语速的快慢、音量的大小和基频的高低的自适应调整能力是非常高的。目前的语音识别系统(本文中主要是指IBM的ViaVoice语音识别系统)对语速、音量和音调都具有一定的自适应调整能力。但对于不同的发音人来说这些自适应调整能力都是不够的,往往在识别那些语速过快或过慢、音量过大或过小和音调过高或过低的语音的时候得到的识别率都比较低。本文主要介绍了作者针对这一问题所作的关于语音调整的技术与方法的研究工作,其中包括(1)根据汉语语音发音时每一个音节都含有元音,元音长度占音节长度的主要部分但是却不包含发音的主要信息这些特点,提出在语音的元音部分利用相关系数寻找相似波形,然后对元音部分进行几个相似波形的压缩或扩展的方法来改变元音的长度进而调整语速。(2)通过计算语音有声区平均振幅并根据这个平均振幅改变有声区内采样点振幅的方法来调整音量。(3)根据元音自关函数具有周期性并且其周期就是语音基音周期这一特性,提出在保持语音波形总体不变的前提下,在语音时域上对语音进行插值或删值的方法来调整音调。
其他文献
本文基于现代教学的需要,研究了计算机技术、网络技术及其多媒体技术在CAI中的应用,设计了学生认知模型,制作了基于网络的多媒体课件系统,较好地解决了CAI课件对个别化自主学习与
该文针对当前Web入侵的实际背景,在分析当前国内外入侵检测系统及采用技术的基础上提出一种基于贝叶斯决策的智能入侵检测方法,并在此基础上开发了一个原型系统:S-WEB系统.该
近二十年来,计算机网络得到了极大的发展,目前已进入到一个新的发展时期,即ATM交换网和宽带业务综合数字网的时期。网络新时期的特征是在计算机网络业已发展的基础上,将综合业务(
近年来,智能控制技术在对不确定非线性动态系统的控制领域的应用和研究越来越受到关注,并且取得了很多成果。本论文主要分为两大部分。第一部分主要运用多层神经网络所具有独特
本文以江西省自然科学基金项目“数据挖掘的系统模型研究与实现”为课题主体,在深入研究模糊集理论和粗糙集理论和广泛了解国内外数据挖掘发展现状的基础上,提出了ARMRDB(Assoc
射频识别(RFID,Radio Frenquency Identifitation)技术是一种非接触性数据自动采集技术,它以空间电磁波作为传输媒介以达到双向通信、自动识别的目的。由于具有工作环境要求
随着Internet及其相关技术的飞速发展,Web已经成为内容丰富的信息库和交互平台。Web系统也从最早的信息展示发展到了现在的包罗万象,例如企业管理系统、网络交易平台、即时通
密钥托管是目前密码界的重要研究课题.密钥托管主要解决以下问题:在密钥托管系统中,法律执行部门在法院授权的情况下能够进行搭线窃听,对犯罪怀疑分子进行秘密跟踪.另一个重要作用
永磁式接触器是一种微功耗接触器,其具有结构简单、零部件少、无噪音、低功耗等优点。然而,永磁接触器由于工作原理的限制,其在设计上存在先天性的缺陷:当控制模块或控制电路上的受控元件出现故障时,或者在线圈出现故障、失电的条件下,永磁接触器无法正常分断,对主供电回路失去控制能力。这一缺陷会带来极大的安全隐患。为解决目前永磁式接触器中存在的问题,本文设计了一种强制脱扣保险机构,与电磁机构构成新型永磁接触器,
计算机技术和通信技术的不断发展使得越来越多的重要数据需要在网络中传输、存储,网络数据库系统的安全问题因此显得更加重要。实现网络数据库系统安全的一个有效方法是建立网