论文部分内容阅读
“一带一路”政策的推行掀起了“汉语热”的狂潮,然而,不少把中文作为第二语言的外国学习者都遇到了汉语学习难的问题。如传统汉语学习模式单一,教学资源缺乏以及语言差异等。人类感知交流是一个多感官过程,视听多模态信息可以有效促进语言的理解与学习。智能辅助语言学习,就是通过为学习者提供有关发音器官运动的指导,增强学习者对发音的理解,更准确地掌握发音规律,从而在一定程度上有效解决了汉语学习难的问题。
考虑到当前需求和时代背景下中文智能辅助语言学习的缺乏,本文应用中文超声数据库提出了基于生成对抗网络的语音逆推(Generative Adversarial Network acoustic-to-articulatory inversion,GAN-AAI),从语音信号中恢复人体内部发音器官运动状态,利用智能辅助进行语言学习。本文首次将中文超声数据库中采集到的声学语音数据和超声图像数据应用于语音逆推研究。首先运用传统声学归一化方法通用声学空间,对声学语音数据和超声图像数据进行数据预处理,提取了声学语音数据MFCC特征,对超声图像数据进行PCA降维提取发音器官运动特征,实现了基于通用声学空间GAS的说话人无关语言逆推。其次分别构建了基于LSTM的生成网络和基于ResNet的判别网络,将二者结合形成生成对抗网络的语音逆推网络(GAN-AAI),实现语音逆推。最后使用最小二乘损失函数代替GAN中的交叉熵损失函数,对传统GAN进行改进,构建了最小二乘生成对抗网络(LSGAN)实现语音逆推。实验结果表明三种语音逆推模型都可以反应出人体口腔内部发音器官的运动状态。相比于传统GAS,GAN语音逆推模型在结构相似性上都有所提升,且LSGAN-AAI取得了最优结果,结构相似性达到了81.76%,比GAS-AAI提升了4.1%。均方根误差显示,LSGAN-AAI和GAN-AAI比GAS-AAI在误差上分别降低了27.35%和13.48%。本文运用中文汉语元音语音数据对逆推模型进行验证,结果表明语音逆推模型可以反应出符合人体发音特点的发音器官运动信息。对于存在个体差异性的不同说话人,该模型可以反应出体现个体差异的发音器官运动信息。
考虑到当前需求和时代背景下中文智能辅助语言学习的缺乏,本文应用中文超声数据库提出了基于生成对抗网络的语音逆推(Generative Adversarial Network acoustic-to-articulatory inversion,GAN-AAI),从语音信号中恢复人体内部发音器官运动状态,利用智能辅助进行语言学习。本文首次将中文超声数据库中采集到的声学语音数据和超声图像数据应用于语音逆推研究。首先运用传统声学归一化方法通用声学空间,对声学语音数据和超声图像数据进行数据预处理,提取了声学语音数据MFCC特征,对超声图像数据进行PCA降维提取发音器官运动特征,实现了基于通用声学空间GAS的说话人无关语言逆推。其次分别构建了基于LSTM的生成网络和基于ResNet的判别网络,将二者结合形成生成对抗网络的语音逆推网络(GAN-AAI),实现语音逆推。最后使用最小二乘损失函数代替GAN中的交叉熵损失函数,对传统GAN进行改进,构建了最小二乘生成对抗网络(LSGAN)实现语音逆推。实验结果表明三种语音逆推模型都可以反应出人体口腔内部发音器官的运动状态。相比于传统GAS,GAN语音逆推模型在结构相似性上都有所提升,且LSGAN-AAI取得了最优结果,结构相似性达到了81.76%,比GAS-AAI提升了4.1%。均方根误差显示,LSGAN-AAI和GAN-AAI比GAS-AAI在误差上分别降低了27.35%和13.48%。本文运用中文汉语元音语音数据对逆推模型进行验证,结果表明语音逆推模型可以反应出符合人体发音特点的发音器官运动信息。对于存在个体差异性的不同说话人,该模型可以反应出体现个体差异的发音器官运动信息。