三维几何发音模型的构建与控制

来源 :天津大学 | 被引量 : 0次 | 上传用户:sven55
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
基于发音机理的语音合成模型模拟语音生成的发音运动和空气动力学过程。我们尝试构建一个更加精确的发音运动模型来逼近发音器官的形态学特性,从而得到一个更好的发音合成系统。目前有两个主流的建模策略:生理模型和几何模型。本文基于中文数据库构建三维几何发音模型,与神经生理模型相比较,这一几何模型忽略复杂肌肉力的影响。因此,几何发音模型的实时性随着运算量的减少而得到提高,这使得几何发音模型适用于实时性要求比较高的应用。本文提出了一种基于MRI(磁共振成像)和CBCT(锥形束C T)构建三维几何发音模型的新方法,由于磁共振成像技术能够比较清晰地成像出声道发音器官轮廓的形状,并且磁共振成像技术对人体造成的伤害较小,因此越来越多的应用于语音合成研究。由于骨质结构不能在MRI中直接清晰地采集成像,我们采集了CBCT的数据来补充骨质结构的信息,进行上下颚的填补。通过磁共振成像技术采集得到的发音器官的数据库,对于构建出声道模型进而分析不同发音带来的声道发音器官形状的变化规律具有很大的优势。并且以其建立精确的三维声道模型,进一步对发音过程的声道可视化,对于语音教学应用和语音生成机理分析等都具有重要的意义。本文对中文磁共振数据库中一个受试者的104组发音数据进行研究,研究方法具体步骤如下:数据库及其预处理,数据标注以及三维网格建模,数据分析以及验证评价,碰撞检测以及响应。线性成分分析方法结果显示,每个发音器官可以用三个以内参数来很好地进行描述,并且参数控制集的累积贡献率高于80%。用此分析结果对各个发音器官进行重构而得到的均方根误差均小于1.0 mm。本文创新点在于提出了一种新颖的三维声道发音器官建模方法,其中我们考虑了发音器官的生理边界点,建模过程有两个主要的改进,融合不同切片的数据来提升发音器官轮廓的标注精确性以及根据发音器官的解刨结构来建立发音器官的三维网格。这样既保证了发音器官的完整性,又保留了发音器官上生理特征点的对应性。最后,本文构建了基于汉语发音数据的三维几何发音模型,这对于汉语的语音语言教学,汉语普通话的广泛推广,语音的病理纠正等应用提供了理论基础。
其他文献
随着社会的进步和发展,带钢产品在社会生产和生活中的应用越来越广泛,因此带钢产品的质量就成为人们所关注的重点。在现有的带钢表面缺陷检测方法中,存在实时性差、识别率较
随着信息技术产业的不断发展,开关电源因为其体积小,转换效率高,应用越来越广泛,同时开关电源的性能要求也越来越高。传统的建模方法、控制方法已经很难满足现代开关电源的要求,利用模拟电路来实现开关电源的控制的局限性也越来越明显,伴随着数字化的浪潮,开关电源数字化控制已经成为开关电源发展的方向。本文详细叙述开关电源中基本DC/DC变换的常用建模方法,以及国内外先进建模方法的研究现状。在研究的过程中,认识到
人机工程学从半个多世纪前诞生发展到现在,取得了长足的进展。它各种的理念已经开始渗透到社会的各个领域,并深刻影响着各种产品的设计、生产、销售以及服务方式。 近十几年
倒立摆是理想的自动控制理论研究实验平台,许多抽象的控制概念如系统稳定性、可控性、抗干扰能力等,都可以通过倒立摆直观地表现出来。因此,自从20世纪50年代以来,许多现代控
当前,汽车电子技术不断朝高度集成化、无线网络化、智能化和信息化的方向发展,但是市场上的车载无线对讲设备不仅笨重、昂贵而且缺乏与其他车载设备的高度整合。针对这种情况
网格是利用计算机网络把地理上广泛分布的计算资源、存储资源、网络资源、软件资源、信息资源等连成一个逻辑整体,然后像一台超级计算机一样为用户提供一体化的信息应用服务
当前,随着科技进步与需求的不断提升,数据业务与多媒体业务的迅猛发展给以传输语音业务为主的传统电信网带来了巨大的压力。因此提供集语音、图像、数据为一体的多媒体综合业
无刷直流电动机利用电子换相代替机械换相,不但具有直流电动机的调速性能,而且体积小、效率高,在许多领域获得广泛应用。传统的无刷直流电动机大多以霍尔传感元件为位置传感
学位
近年来,我国道路交通事故频发,死亡人数一直居世界首位。驾驶员疲劳驾驶是引发交通事故的一个重要原因,许多国家的科研院所着力于疲劳检测的研究。该研究对于提高道路交通质
随着生产自动化要求的不断提高,控制技术和微型计算机技术的不断发展,智能记录仪已日益广泛地应用在工业过程领域,并占据了越来越高的地位。近年来,新的应用也对智能记录仪的设计