基于生成对抗网络的语音逆推研究

来源 :天津大学 | 被引量 : 0次 | 上传用户:yanzhijianer
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
“一带一路”政策的推行掀起了“汉语热”的狂潮,然而,不少把中文作为第二语言的外国学习者都遇到了汉语学习难的问题。如传统汉语学习模式单一,教学资源缺乏以及语言差异等。人类感知交流是一个多感官过程,视听多模态信息可以有效促进语言的理解与学习。智能辅助语言学习,就是通过为学习者提供有关发音器官运动的指导,增强学习者对发音的理解,更准确地掌握发音规律,从而在一定程度上有效解决了汉语学习难的问题。
  考虑到当前需求和时代背景下中文智能辅助语言学习的缺乏,本文应用中文超声数据库提出了基于生成对抗网络的语音逆推(Generative Adversarial Network acoustic-to-articulatory inversion,GAN-AAI),从语音信号中恢复人体内部发音器官运动状态,利用智能辅助进行语言学习。本文首次将中文超声数据库中采集到的声学语音数据和超声图像数据应用于语音逆推研究。首先运用传统声学归一化方法通用声学空间,对声学语音数据和超声图像数据进行数据预处理,提取了声学语音数据MFCC特征,对超声图像数据进行PCA降维提取发音器官运动特征,实现了基于通用声学空间GAS的说话人无关语言逆推。其次分别构建了基于LSTM的生成网络和基于ResNet的判别网络,将二者结合形成生成对抗网络的语音逆推网络(GAN-AAI),实现语音逆推。最后使用最小二乘损失函数代替GAN中的交叉熵损失函数,对传统GAN进行改进,构建了最小二乘生成对抗网络(LSGAN)实现语音逆推。实验结果表明三种语音逆推模型都可以反应出人体口腔内部发音器官的运动状态。相比于传统GAS,GAN语音逆推模型在结构相似性上都有所提升,且LSGAN-AAI取得了最优结果,结构相似性达到了81.76%,比GAS-AAI提升了4.1%。均方根误差显示,LSGAN-AAI和GAN-AAI比GAS-AAI在误差上分别降低了27.35%和13.48%。本文运用中文汉语元音语音数据对逆推模型进行验证,结果表明语音逆推模型可以反应出符合人体发音特点的发音器官运动信息。对于存在个体差异性的不同说话人,该模型可以反应出体现个体差异的发音器官运动信息。
其他文献
学位
互联网使用的爆炸式增长使得信息传播变得越来越容易,导致了严重的版权侵权问题,例如未经授权的复制、分发和修改数字化作品。为了提高网络信息的有效利用率,版权保护变得尤为重要。作为一种广泛使用的保护技术,水印方法已应用于多媒体版权保护的许多领域。水印是一种常用的信息嵌入技术,用于保护图像,视频和音频信息。它通过不可见的修改将关键信息嵌入到需要保护的数据中。在图像水印方案中,主要的关注点有安全性、隐蔽性和
学位
语音不仅传达着语义信息而且也传达着情感信息。计算机使它的使用者能够通过自然的交互,高效高质量地完成既定的任务。随着语音情感挖掘工作的不断发展,对社会服务、医学、安全、工业控制等相关领域都有实际的应用,但是由于情感定义的不确定性和缺乏统一的建立标准的数据库以及情感特征的模糊性,使得语音情感识别技术成为了一个难题,还存在许多有待攻克的难关。为了解决语音情感识别中识别率不高和还不能做到迁移学习且鲁棒性较
随着大数据时代的飞速发展,数字图像在互联网上的应用和传输已经比过去普遍得多。因此,图像的加密和压缩技术对公共网络上的实时传输和存储至关重要,具体分为两个阶段,第一阶段防止信息泄漏,第二阶段减少信息数据量。传统的分组密码DES、AES最初是为加密文本数据而设计的,并且被发现不适合于具有高像素相关性和冗余特征的数字图像加密。现今,研究人员已经注意到混沌系统的基本特征具有较为理想的密码属性,可以作用于图
学位
近年来对数据安全的要求逐渐提高,密码系统的安全性变得尤为重要。混沌系统因其伪随机性、对初始条件极为敏感等优良特征被应用于密码学中。混沌密码系统的安全性一般通过经典的统计学测试来进行评估,例如SP 800-22测试,雪崩测试等,对混沌密码系统的攻击也主要使用数学手段。然而密码系统运行时会泄露能耗、电磁、声音等旁路信息,这些信息往往和密码系统所处理的数据有关。旁路攻击利用密码系统所处理的中间数据和旁路
学位
随着大数据和人工智能的不断发展,网络系统的设备数量增加,网络系统部署工作量和难度越来越大。运维人员和现场网络配置人员在配置过程中,经常需要做一些重复性的配置工作。传统的网络配置一般需要接口配置、相应链路速度以及网络协议等。在小型网络中,这种情况可以简单容易的实现且基本不会发生错误,一旦发生错误也可较高效的对问题做到解决。但在大型网络中,这显然是一个很繁琐的过程。本文在原有Python技术支持下提出
学位
冲击地压是在煤岩开采过程中发生的动力破坏现象,由于复杂的地质条件和多样的开采方式使冲击地压具有较强地模糊性、非线性。冲击地压灾害的发生往往会造成较大的人员伤亡和财产损失,因此精准地预测冲击地压对于煤岩安全稳定开采具有重要意义。  论文首先分析了煤岩冲击地压前兆特征信号中的声发射信号、应力信号和红外辐射信号的变化规律。针对单一的前兆特征参量不能完整的表征冲击地压发生状态等问题,提取声发射振铃计数和信
学位
随着互联网的不断普及与发展,越来越多的用户选择互联网作为获取信息的第一渠道。与此同时,随着全面小康时代的到来,人民对精神文化娱乐的需求日益增强促进着电影文化产业蓬勃发展。面对互联网中海量的电影及评论数据,利用情感分析技术对评论数据进行分析,挖掘评论文本中隐含的情感倾向与价值趋向,一方面为消费者作出消费决策时提供参考意见,另一方面可以帮助电影创作者了解观众喜好与市场需求,从而创造出更加优秀的电影作品
学位