语音产生的神经生理控制建模

来源 :天津大学 | 被引量 : 0次 | 上传用户:liujunqiang6455314
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
大脑对于语音产生的控制过程是非常复杂的,包括许多的神经控制过程如语音规划、听觉感知反馈和体感感知反馈等。在控制过程中,各个相关的脑区是协同和并行工作的,一个区域的控制信号会传输到另外几个区域,这其中包含着许多“一对多”的关系。然而,在之前的神经计算模型结构中,各区域状态之间的关系都是“一对一”的,并不是“一对多”的。因此,为了表现出一对多的控制关系,本文对模型的结构进行了修改,将模型中的运动规划状态、运动执行状态、体感状态和声学状态分别使用一个状态层来表示,并将每一层与脑区中的一个特定区域相对应。最后将训练结果分别用一个自组织图(Self-organizing Map,SOM)来表示。本文提出的神经计算模型使用了一种基于语音产生的生理计算模型。该生理模型作为神经计算模型的末梢语音产生模块是用来模拟人体发声时的声道状态的,它替代了过去大部分神经控制模型所使用的几何模型,这样可以更好地反映人体语音产生过程中的具体生理特征。本文使用神经计算模型对辅音-元音-(Consonant-vowel-,CV-)音节的动态特性进行了处理,设计了对于CV-音节的神经化映射方法并构造了数据量较大(25000个)的训练集。通过对其进行训练,模型获得了运动层、体感层和声学层的神经化特征知识,这些知识被储存在各个状态的自组织图中。实验结果显示,新的神经模型结构可以很好地处理CV-音节的动态特性,通过构建各个层之间的映射关系,一个自组织图的神经元平均与其他自组织图的1.64个神经元存在对应关系,验证了本文所提出的不同模块之间的“一对多”关系的正确性。更重要的是,运动控制图的训练结果与通过脑皮层电图描记法(Electrocortigraphic,ECoG)所得到的大脑左半球肌肉分布阵列图像相类似。由于此阵列图像是基于大脑真实数据得出的,从而证明本文提出的模型结构以及对于CV-音节的训练方法和训练结果是真实可靠的。
其他文献
科技资源优化配置是科技管理和科技政策优先关注的核心问题之一,是资源配置的重要方面,是科技创新体系建设的基础。科技资源具有稀缺性与长效性特征,决定了世界各国将科技资源优
随着下一代互连网IPv6的快速发展,其路由协议(比如:OSPFv3路由协议)越来越受到路由设备与软件开发商的重视,很快从实验室走向产品化。进行此类协议的一致性测试对于实现这些协议
WWW技术蓬勃发展,由于Web站点的规模和复杂度的增加,网站的一些主要工作,如Web站点设计、Web服务设计、电子商务等工作变得越加复杂和繁重。Web数据挖掘可以帮助分析人员从用
论文介绍和总结了网格计算中的关键技术——资源分配和任务调度以及网格QoS的国内外研究现状,指出了目前研究中存在的问题和不足,并就这两方面的结合,即如何在资源分配和任务调
近年来,随着软件技术和internet的迅猛发展和普及,企业级计算达到了前所未有的新高潮。无论是从事电子商务的新兴企业,还是从事传统产业的企业,都需要互联网来发展和拓展企业。总
发音运动可视化是指将人的发音过程通过三维模型模拟出来。发音运动分析与合成系统涉及生理语音学、语音生理图像、人的发音机制及控制的生理计算模型等领域的相关技术,主要方法是建立超声数据库与三维生理模型数据库并将在二者之间建立映射关系从而实现发音运动的可视化,建立一个完善的发音运动分析与合成系统。目前,在对中文发音可视化研究方面存在欠缺,尤其是通过三维模型的可视化方面,因此发音运动分析与合成系统在语言学习
随着国民经济的高速发展以及市场经济体制的确立,电能已经作为一种特殊的商品越来越受到大家的重视。自20世纪70年代以来,由于电力电子器件及其它非线性负荷在电网中大量的投
随着Internet在全世界的迅速发展,以其为载体的应用也越来越多。近年来,流媒体的应用在Internet上得到了迅速的推广,这就带来了网络带宽的急剧消耗和网络拥塞问题,需要一种行之有
人脸识别技术,是生物识别技术中一个非常重要的领域。这一技术有着广阔的应用前景和迫切的现实需求。但由于人脸模式的多样性和图像获取过程中的不确定性都导致人脸的检测和
当前Web应用系统的性能已经成为人们关注的焦点。由于手工测试存在致命的缺点,性能测试工具得以广泛应用。这类工具普遍在HTTP/S等多种协议基础上,创建并执行虚拟用户脚本,以