汉英双语混合声学建模方法初探

来源 :第七届全国人机语音通讯学术会议 | 被引量 : 0次 | 上传用户:zhennanquming
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
本文从直接合并汉英双语的phoen set入手,对三种不同的汉英双语混合声学建模方法进行了研究.这三种方法分别是:(1)直接合并二者的phone set进行声学建模,汉英两种语言之间没有共享的phoe;(2)基于国际音标协会(International Phonetic Association,简称IPA)的统一声学表示,把汉英双语的部分phone用国际音标进行共享,使得双语的Phone Set更加紧凑,然后进行双语混合声学建模;(3)对汉英双语的Phone进行合并聚类,使用聚类后的Phone Set和(2)有同样数目的Phone,以便进行比较研究,在这里,我们使用了两种不同的距离度量,一种是Bhattacharyya距离,另一种是似然度准则.实验结果表明,方法(1)的声学模型较为鲁棒,但是建模单元也最多,模型不够紧凑;方法(2)具有紧凑的模型,但是鲁棒性最差;方法(3)在使用Bhattacharyya距离进行聚类时,以较少的Phone进行双语混合声学建模,不仅保持了(2)中模型紧凑的特点,而且基本达到(1)的识别率;特别是当使用似然度准则时,英语的识别率甚至超过了(1),而汉语的识别率也有进一步提高.
其他文献
本文选用三种高强陶粒为粗骨料,在不同水胶比和掺和料下,通过进行系统地配制试验,探讨陶粒混凝土性能与组成的关系.结果表明:陶粒混凝土强度与胶水比在一定的范围内存在着线性关系,陶粒的性能(密度、粒型等)是影响混凝土性能的重要因素.
通过与相关技术人员的座谈及对阜新、本溪两地自燃煤矸石堆积山、已建建筑、构件厂的实地考察和现场检测,对当前自燃煤矸石混凝土的应用情况进行了深入了解和总结.根据两地自燃煤矸石混凝土的实际应用情况和效果,分析了现今自燃矸石混凝土应用逐渐萎缩的主要原因及面临的主要问题,并从政策和技术层面对今后自燃煤矸石混凝土的应用提出了建议.
本文通过集中荷载作用下的8根LC40~LC50高强轻骨料混凝土和1根C50普通高强混凝土简支梁的抗剪性能试验,研究了高强轻骨料混凝土梁的受剪破坏形态和抗剪承载力,并将试验值与我国规程公式计算值进行了对比.结果表明,在本次试验的试验变量范围内,我国规程计算结果有足够的安全度.
本文旨在探讨以水库淤泥烧制轻质骨质材制作之钢筋混凝土预铸梁之量产技术,进而研究轻质骨材混凝土与常重混凝土梁在受到纯弯矩、纯扭矩以及扭矩与弯矩组合载重下之力学特性,并与设计规范之预测值比较,以供未来设计者参考.本研究共规划8根在预铸场制作之轻质骨材混凝土与6根以预拌混凝土制作之常重混凝土梁试体,试体断面尺寸为350×350mm,混凝土抗压强度约为37~46MPa,梁试体全长约为4500mm.
具有大开间、大进深,灵活隔粘布置的结构体系,是民用建筑的发展方向.本文介绍一种轻质复合板,在保持混凝土楼板外形和基本受力特点的情况下,实现明显减轻自重,提高建筑使用功能的效果,从而适应了民用建筑的发展方向.该轻质复合楼板的试制,试验与试用都仅是初步,笔者撰写此文旨在抛砖引玉,引得越来越多的业内人士对这种新型的混凝土楼面结构体系进行研究、推广与应用,以期提高我国的建筑水平.
本文提出一种构筑汉语大词汇量连续语音识别系统的方法,即采用HTK完成汉语连续语音识别的声学模型训练,采用CMU-Cam-Toolkit统计语言模型工具生成语言模型,识别器采用京都大学的Julius工具.实验表明由这些工具所构建的连续语音识别系统具有良好的性能.
本文提出用于谱减法的语音增强中的噪音估计、参数估计和计算优化的算法.首先,本文提出用单帧数据逼近求噪音频谱的算法,其优点是计算简单.其次,本文提出约束的短时语音谱估计器和非约束的短时语音谱估计器,它们比普通谱减法更好的消除了噪音.最后提出两种修改办法:变换带宽法(Change Band-Width)和信噪比加权法(SNRWeighting),研究谱减法通用公式的优化.本文提出的算法在白色高斯噪音和
本研究的目的是:针对目前汉语普通话TTS系统的现状,尝试提出一套行之有效的评价方法.本文通过对北京捷通华声语音技术有限公司大小不同的两个普通话TTS系统的评测,进一步探讨MOS主观评测的可操作方法.研究中,提出严格且操作性强的五分制定义,编制了一套测试材料.另外对听测人预先进行语音知识的培训,听测人参与了五分制标准语音的一致理解,而且增加了评分中的可操作性,避免了正式评测中分数的过度分散.还有,在
我们发现了一符合VoiceXML2.0规格的语音浏览器(VoiceBrowser),它和过去我们发展出的VoiceXML1.0语音浏览器不同处在於我们建立了一个符合SRGS(Speech Recogntion Grammar Spec)规格的文法剖析器,它加强了互导式(mixed-initiative)的对话功能,同时也针对语音插话(voice barge-in)规格,我们提一个基於音高周期驱动式
为了摆脱语音环境因素对语音识别性能的影响,本文讨论分析了汉语语音识别技术的突破方向和两个可能的途径:一是使训练集包话识别时可能遇到的所有发音样本,求出各个模式之间的特征参数空间分界面;二是建立精确的语音产生模型,利用某人的少量指定的语音,实现某人的特定人语音识别.