中国科学技术大学声音转换的神经网络建模方法研究

来源 :中国科学技术大学 | 被引量 : 0次 | 上传用户:fuwanyi
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
声音转换技术是在保持语义内容不变情况下,改变一个说话人语音中的个性信息使其具有另外一个说话人的发音特征。它是语音信号处理领域一个较新的分支。对这项技术的研究不仅对语音编码、语音合成、语音增强和语音识别等语音信号处理领域具有促进意义,同时它还可以应用于多媒体娱乐、医疗、保密通信等方面具有广泛的应用价值。基于高斯混合模型(Gaussian Mixture Model,GMM)的转换方法是目前主流的声音转换方法。该方法采用统计建模的方式建立转换关系,具有相似度高、鲁棒性好的优点。但是其得到的转换语音的音质受过平滑效应的影响仍有待提高。并且这种方法获得的转换模型是源和目标说话人相关的,针对新的转换说话人对需要重新训练模型,使得模型在使用灵活性上存在缺陷。  本文围绕改善基于GMM模型的声音转换方法的转换效果与提高转换模型的使用灵活性两方面展开研究。基于GMM模型转换方法中的过平滑效应问题主要由两个原因产生:1)建模采用的高层频谱特征从原始频谱上提取得到,特征的提取过程导致频谱细节信息丢失;2)GMM只能建立线性转换关系,对源和目标频谱特征的非线性转换关系建模不足。为此,本文提出直接采用频谱包络特征进行建模。针对GMM模型对频谱包络特征建模困难的问题,本文提出了一种采用高斯型双向联想贮存器(Gaussian Bidirectional Associative Memory,GBAM)实现对源和目标频谱包络联合特征建模的方法,提高了转换语音的自然度和相似度。由于GBAM建立的仍然是源和目标频谱包络的线性转换关系,本文在受限玻尔兹曼机(Restricted Boltzmann Machine,RBM)和伯努利型BAM(Bernoulli BAM,BBAM)基础上进一步研究了一种基于产生式训练的深度神经网络模型(Generative Trained Deep Neural Network,GTDNN),这种模型可以建立源和目标频谱包络的非线性转换关系,进一步提升了转换语音的效果。此外,为了提高转换模型的使用灵活性,本文提出基于多源说话人数据训练的DNN的频谱转换模型。在这种方式下得到的DNN可以作为源说话人无关模型,直接用于实现任意源说话人到特定目标说话人的转换,使得转换更加方便。实验结果显示,采用这种DNN模型对新说话人的频谱转换时,能够获得与传统基于GMM模型接近的转换效果。另外,这种模型可用于对传统DNN模型初始化,相较于采用深度置信网络(Deep Belief Network,DBN)的初始化方式,可进一步提高传统DNN模型转换语音的自然度。
其他文献
卫星定位系统在现代战场和国民经济建设的各个方面发挥了越来越重要的作用,机载、车载设备对卫星定位系统接收机的动态性能提出了新的要求。本文对卫星定位系统接收机的设计进
随着网络信息技术的飞速发展,数字媒体的信息安全问题正日益成为人们关注的焦点。信息隐藏的研究是当前信息安全领域的热点问题之一,其目的就是在图像、音频、视频等公开的数字
压阻式压力传感器是利用半导体材料硅的压阻效应制成的传感器,具有灵敏度高,动态相应快,测量精度高,稳定性好,工作温度范围宽,易于小型化,便于批量生产和使用方便等优点。因
由于海面海底界面对声信号传播的影响,水下声信道发生边界反射,产生多途效应的同时也会引起干涉现象。干涉现象携带着目标状态的重要信息,利用接收声压信号在时频域上的干涉规律
正交频分复用(OFDM)技术是通信系统中的热点问题。结合多天线技术以及中继增强型通信系统,本文研究了MIMO-OFDM系统中载波间干扰的产生以及发送端预处理方案和接收端均衡技术
无线城域网(WMAN)是继无线局域网(WLAN)之后又一大宽带无线接入技术。针对WMAN技术,IEEE 802.16工作组推出了IEEE802.16协议族,协议里把OFDM作为典型的物理层应用方式。正交
乳癌是人类最常见的一种恶性肿瘤,也是女性主要恶性肿瘤之一,发病率逐年上升,乳癌的早期诊断与治疗,有利于提高五年存活率。传统的乳癌诊断方法,一般采用X光扫描,活检等方法
为了能够将过程层的传感设备与间隔层进行通信上的无缝联接,在电力互感器和二次设备间需要有一个桥梁将互感器的信号转变成遵循IEC61850-9-1/2标准并能够在网络上传输的设备,