论文部分内容阅读
从神经心理学和神经解剖学的角度,对大脑中涉及语音生成和理解区域的相关功能进行描述和仿真,是探究人类语音生成和获取过程的关键,也是近年来人工语音合成研究的热点。DIVA(Directions Into Velocities of Articulators)模型应运而生。它是目前为止较为全面的具有生物物理学意义的语音生成和获取自适应神经网络模型,可以描述和仿真语音生成和获取过程中大脑相关区域的功能,通过控制仿真声道并模拟声道运动来生成音素、音节或单词。另一方面,实验观察指出小脑参与各种各样的运动和认知任务,小脑具有一致性的神经生理学结构、解剖学结构以及与大脑皮层广泛的连通性。因此,目前阶段对于DIVA模型的研究,除了专注于基本语音单元生成时的神经控制的研究外,还需探索该过程中小脑在协调时间特性以及其他方面的作用。本文首先对DIVA模型进行了介绍,包括基本原理、模型结构和学习过程。然后结合小脑在一些运动和认知任务中的功能角色以及小脑现有的功能模型,探讨了DIVA模型整个语音生成和获取过程中小脑所作的贡献,以及小脑如何参与其中进行语音的生成。并在此基础上对DIVA模型进行扩展,在反馈控制系统中从语音映射集到听觉和体觉目标映射集之间以及从反馈控制映射集到发音器官速率和位置映射集之间分别加入小脑模块。为了计算和实现的简明性,嵌入的小脑模块是“等功能”的小脑,而非神经解剖学上完整的小脑模型。从实验结果来看,扩展后的DIVA模型生成的语音更加清晰明确、音质更好,语音信号共振峰频率曲线更加平滑。本文还通过结合小脑解剖学结构以及神经生理学知识,构建了一种适用于DIVA模型的小脑神经网络模型,并应用到DIVA模型的前馈控制系统中。结果表明,新构建的小脑模型的加入可以解决DIVA模型中关于前馈运动命令的学习和生成的问题。