论文部分内容阅读
随着时代的变化,无论是学业和事业上的需求,还是日常的沟通交流、旅行等实际需要,第二语言的学习越来越受到人们的重视。人工教学作为传统的第二语言学习方式存在教师资源不足、地点时间受限、实时性较差等诸多限制,而计算机辅助语言教学(Computer-Assisted Language Learning,CALL)则有效地解决了传统教学方式中存在的诸多问题,既可以作为教师的有力辅助工具,也可以为学生提供实时有效的指导。其中,语音技术在针对口语学习的发音质量评估上得到了广泛而有效的应用。本文以声学模型为基础,重点从音段和韵律两个方面进行考量,针对第二语言学习者的发音质量评估模型和算法进行了研究。本文对发音质量评测相关领域做了较深入的调研。对于音段的分析,我们以通用的GOP(Goodness Of Pronunciation)评测算法作为基准,通过统计实验探讨了传统GOP方法的不足,验证了语音模型所输出的整体后验概率对于发音质量评估的有效性。对于韵律的分析,目前并没有通用的算法框架,本文则对于韵律的两大主要因素,语调和停顿,分别提出了基于动态时间规整(Dynamic Time Warping,DTW)的F0相似度算法和基于强制对齐的停顿相似度算法。本文重点提出了一套基于深度神经网络(Deep Neural Network,DNN)的发音质量评测算法框架。对于音段的分析,该模型以语音模型所输出的整体后验概率作为特征,通过训练来学习其与说话人发音质量之间的映射关系。对于韵律的分析,通过使用混合高斯模型(Gaussian Mixture Model,GMM)描述不同说话人的韵律相似度的统计分布,在此基础上构造平滑的韵律特征向量作为网络的输入。并通过实验验证了该算法框架的有效性,也进一步证明了我们所提出的音段特征、韵律相似度算法的有效性。