语音驱动的说话口形预测与合成技术研究

来源 :北京工业大学 | 被引量 : 0次 | 上传用户:anavelgato234
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
具有真实感的语音同步可视语音合成是人机交互领域一个重要的研究方向,将具有语音动画的人头用在教学、广播、电子商务等领域,可提高人机交互的友好性和真实感,其研究成果在许多多媒体系统中有着潜在的应用前景。本研究涉及机器学习、图像处理、语音处理、数字视觉、模式分类等多个领域的知识,是这些领域相关理论在可视语音合成中应用的综合体现,具有一定的理论和实践意义。 基于不同的应用目标,可视语音合成研究的着眼点有所不同,但作为应用基础研究,考虑到说话行为是人类最广泛,也是人类最熟悉的行为,因而其合成效果在视觉上的真实感和可接受性是可视语音合成追求的目标之一。本文以提高合成效果真实感为目的,对语音驱动的可视语音合成的若干核心问题展开了研究,提出了相应的解决方案和实现技术。主要的研究内容和研究方法如下: (1)数字视觉语音表示方法的研究:针对可视语音合成领域中视觉语音表示问题,研究建立能够区别说话过程中不同口形状态的本征特征,为视觉语音表示提供有效的方法。研究过程中根据人类理解图像的特点,特别是对说话过程中区别不同口形状态的认知特点,参考数字视觉领域图像特征的建模方法和基于图像的可视语音合成方法中可视语音的表示方法,本文提出了基于几何和颜色矩的视觉语音表示方法。 (2)说话口形相关的语音特征的研究:针对传统可视语音合成领域直接应用一个或多个基于语音识别领域所提出语音特征的方法中,语音特征与可视语音相关性不确定的问题,本文对说话口形相关的语音特征提取问题作了研究。通过对样本数据的分析,研究了现有语音特征与视觉语音的关联关系,根据该关联关系,采用遗传算法提取与说话口形相关的语音特征。 (3)声视频映射模型的研究:建立从语音特征空间到视觉语音特征空间的映射模型是基于语音驱动的可视语音合成研究的核心点。本文从声音语音和视觉语音是说话行为同一时刻两种不同表达形式的角度出发,提出了语音同类可视语音亦同类的假设。基于该假设,研究了样本统计方法在建立粗耦合的语音类/口形类映射模型的应用,并对提高基于语音聚类后所得的映射口形图像类聚类特性的方法作了相关研究。 (4)以声视频映射模型为基础的合成方法的研究:研究以粗耦合的语音类/口形类映射模型为基础,实现语音到同步的口形图像转换方法。在合成过程中将viterbi算法应用于语音同步的口形序列预测中,并针对评价函数的设计做了相应的研究。 通过对以上几个研究点所展开的研究,本文确定了采用合成真实感较强的基于图像的合成方案,并将基于样本学习的研究方法应用在整个研究过程中,围绕语音到说话口形的转换目标,对上述相关问题提出了相应的解决方案,主要研究成果和创新如下所述。 (1)提出了基于几何和颜色矩的说话口形图像表示法。确定了反映口形形状的几何特征,同时针对单纯基于几何特征无法描述牙齿可见度的缺陷,提出了基于几何特征加颜色矩的联合数字视觉语音特征设计方案。几何特征以面向MPEG-4所定义的唇部区域FDP特征点为基础生成。为获得有效的特征点,本文采用了由粗到细的特征点定位方法,同时改进了ASM方法中基于灰度的局部纹理模型,利用反映颜色信息的色调和饱和度分量描述局部纹理,通过统计沿特征点x、y以及两坐标轴夹角45°和135°方向的纹理分布规律建立局部纹理模型。实验结果表明,相对PCA特征和几何特征,基于几何和颜色矩的口形特征能更好地用于区分不同的说话口形。 (2)基于遗传算法提取口形相关语音特征。通过对样本数据中典型语音特征(LPCC,MFCC)系数和口形图像之间的关系分析,提出基于遗传算法提取口形相关的语音特征,确定了基于固定长度的二进制编码方案,以及基于映射口形类的类散布度评价函数为依据的适应度函数设计方案。实验结果表明基于最优个体生成的语音特征相对LPCC、MFCC以及两者的联合特征对说话口形具有更好的预测能力。 (3)提出了粗耦合的语音类/说话口形类的声视频映射方案。按照语音同类可视语音亦同类的原则,实现了基于样本实例建立语音类/说话口形类的声视频映射方法,为语音到可视语音的转换提供了依据。通过建立两者粗耦合的关联关系,绕过准确建模两者关系的困难,在类概念的意义上,解决了语音与说话口形之间非一一对应关系的难以描述的问题。相对采用复杂模型来建模声视频关系,该方案简洁易实现。 (4)提出了基于双层语音码本的说话口形图像预测合成方法。针对单纯基于语音聚类特性生成的口形图像类中存在着口形不完全一致问题,本文提出在每个口形图像类中根据图像相似性二次聚类,生成图像类子集,并反映射到语音特征空间,构建反映语音和口形聚类特性的双层语音码本。根据该码本,实现新输入语音到口形图像类的转换,在此基础上,本文利用搜索方法在候选图像中通过样本重组合成平滑的口形序列。实验结果表明合成口形序列与原始口形序列具有很好的相似性。
其他文献
IT系统在企业、部门的信息管理中得到了越来越广泛的应用,随着IT应用的扩展,IT网管系统对告警管理的智能化要求越来越迫切。在IT系统中,如果某个节点或节点中的某个网元发生故障
M矩阵是一类具有非正非对角元和非负对角元的矩阵,逆M矩阵是一类逆为M矩阵的非负矩阵。逆M矩阵在许多领域中都具有广泛的应用。本文利用图论理论研究逆M矩阵的完备问题,根据
OFDM技术以其有效对抗多径衰落、频谱利用率较高的优点,成为未来宽带无线通信系统的关键技术。OFDM系统中的自适应调制技术,通过为各个子信道选择合适的调制方式和信号功率,能够
随着信息时代的到来,科学实验、企业运作等诸多领域正不断地产生越来越多的数据,如何经济地存储、高效地处理这些海量数据已成为一个数据库应用中迫切需要解决的问题,具有重大的
网格计算是一种利用互联网,把广泛分布的各种计算资源互联在一起的新型技术。传统因特网实现了计算机硬件的连通,万维网实现了网页的连通,而网格则试图实现互联网上所有资源的全
移动自组网是一种有特殊用途的对等式网络,具有无中心、自组织、可快速展开及可移动等特点。匿名安全问题在移动自组网中受到越来越多的关注,目前已成为研究热点之一,本文主要分
近年来,随着图结构在生物信息网络和社交网络等领域的广泛应用以及各种外界因素对数据获取的干扰,不确定图模型越来越受到研究者的关注。同时,子图的相似性查询作为图上的基
近年来,随着网络数据流量不断增大,与数据挖掘相结合的入侵检测系统成为了研究热点。如何将数据挖掘算法有效地结合到入侵检测系统中,是入侵检测研究要解决的问题之一。目前
随着互联网的快速普及与发展,垃圾邮件的泛滥已成为一大难题,它不仅损害了电子邮件用户的合法权益,威胁着互联网信息安全,而且每年给国民经济造成数十亿元的巨大损失。因此研究有
当前地理信息系统(GIS)无论在理论研究上还是在开发应用上都处于一个飞速发展的阶段,被广泛地应用于土地利用、资源管理、环境监测、交通运输、城市规划、经济建设等各个方面