论文部分内容阅读
随着人工智能的发展,人们对这个领域的研究不断深入。对类似真人发音的语音生成和获取的控制,是机器人发音系统急需解决的问题。DIVA(Directions Into Velocities ofArtculators)模型是一种用于语音生成与获取后描述相关处理过程的数学模型,也是一种为了生成单词、音节或者音素,被用来控制模拟声道运动的自适应网络模型。在当今真正具有生物学意义的语音生成和获取的神经网络模型中,DIVA模型的定义和测试相对而言是最彻底的,并且是唯一一种应用伪逆控制方案的模型。本文首先介绍了DIVA模型和声道模型的发展和现状,然后对DIVA模型的相关理论进行了介绍,包括DIVA模型的基本概念以及基本结构。然后研究讨论了DIVA模型体觉方向向量到发音速度向量的映射以及DIVA模型的伪逆控制机制,作者提出了基于零空间的再分配伪逆算法对DIVA模型中的伪逆控制求解算法进行改进,避免发音器官过早进入饱和状态,从而提高了DIVA模型的鲁棒性。文章引入EMA(electromagnetic articulograph)数据库,对前田几何声道模型进行描述。采用几何学的自适应的过程描述EMA数据应用到DIVA模型中的方法,从而能够更加准确的估算出DIVA模型语音的生成和获取过程中声道模型的形状。实验以/u/音素为基准,在上颚扰动的情况下,分析DIVA模型中的唇凸与收缩尺寸之间关系,对DIVA模型语音生成与获取过程中的运动等效现象,以及声道参数的配置进行研究与讨论。最后,对研究内容进行了总结,并指出了后续的研究方向,为进一步的研究开拓了思路。