论文部分内容阅读
具有真实感的语音同步可视语音合成是人机交互领域一个重要的研究方向,将具有语音动画的人头用在教学、广播、电子商务等领域,可提高人机交互的友好性和真实感,其研究成果在许多多媒体系统中有着潜在的应用前景。本研究涉及机器学习、图像处理、语音处理、数字视觉、模式分类等多个领域的知识,是这些领域相关理论在可视语音合成中应用的综合体现,具有一定的理论和实践意义。
基于不同的应用目标,可视语音合成研究的着眼点有所不同,但作为应用基础研究,考虑到说话行为是人类最广泛,也是人类最熟悉的行为,因而其合成效果在视觉上的真实感和可接受性是可视语音合成追求的目标之一。本文以提高合成效果真实感为目的,对语音驱动的可视语音合成的若干核心问题展开了研究,提出了相应的解决方案和实现技术。主要的研究内容和研究方法如下:
(1)数字视觉语音表示方法的研究:针对可视语音合成领域中视觉语音表示问题,研究建立能够区别说话过程中不同口形状态的本征特征,为视觉语音表示提供有效的方法。研究过程中根据人类理解图像的特点,特别是对说话过程中区别不同口形状态的认知特点,参考数字视觉领域图像特征的建模方法和基于图像的可视语音合成方法中可视语音的表示方法,本文提出了基于几何和颜色矩的视觉语音表示方法。
(2)说话口形相关的语音特征的研究:针对传统可视语音合成领域直接应用一个或多个基于语音识别领域所提出语音特征的方法中,语音特征与可视语音相关性不确定的问题,本文对说话口形相关的语音特征提取问题作了研究。通过对样本数据的分析,研究了现有语音特征与视觉语音的关联关系,根据该关联关系,采用遗传算法提取与说话口形相关的语音特征。
(3)声视频映射模型的研究:建立从语音特征空间到视觉语音特征空间的映射模型是基于语音驱动的可视语音合成研究的核心点。本文从声音语音和视觉语音是说话行为同一时刻两种不同表达形式的角度出发,提出了语音同类可视语音亦同类的假设。基于该假设,研究了样本统计方法在建立粗耦合的语音类/口形类映射模型的应用,并对提高基于语音聚类后所得的映射口形图像类聚类特性的方法作了相关研究。
(4)以声视频映射模型为基础的合成方法的研究:研究以粗耦合的语音类/口形类映射模型为基础,实现语音到同步的口形图像转换方法。在合成过程中将viterbi算法应用于语音同步的口形序列预测中,并针对评价函数的设计做了相应的研究。
通过对以上几个研究点所展开的研究,本文确定了采用合成真实感较强的基于图像的合成方案,并将基于样本学习的研究方法应用在整个研究过程中,围绕语音到说话口形的转换目标,对上述相关问题提出了相应的解决方案,主要研究成果和创新如下所述。
(1)提出了基于几何和颜色矩的说话口形图像表示法。确定了反映口形形状的几何特征,同时针对单纯基于几何特征无法描述牙齿可见度的缺陷,提出了基于几何特征加颜色矩的联合数字视觉语音特征设计方案。几何特征以面向MPEG-4所定义的唇部区域FDP特征点为基础生成。为获得有效的特征点,本文采用了由粗到细的特征点定位方法,同时改进了ASM方法中基于灰度的局部纹理模型,利用反映颜色信息的色调和饱和度分量描述局部纹理,通过统计沿特征点x、y以及两坐标轴夹角45°和135°方向的纹理分布规律建立局部纹理模型。实验结果表明,相对PCA特征和几何特征,基于几何和颜色矩的口形特征能更好地用于区分不同的说话口形。
(2)基于遗传算法提取口形相关语音特征。通过对样本数据中典型语音特征(LPCC,MFCC)系数和口形图像之间的关系分析,提出基于遗传算法提取口形相关的语音特征,确定了基于固定长度的二进制编码方案,以及基于映射口形类的类散布度评价函数为依据的适应度函数设计方案。实验结果表明基于最优个体生成的语音特征相对LPCC、MFCC以及两者的联合特征对说话口形具有更好的预测能力。
(3)提出了粗耦合的语音类/说话口形类的声视频映射方案。按照语音同类可视语音亦同类的原则,实现了基于样本实例建立语音类/说话口形类的声视频映射方法,为语音到可视语音的转换提供了依据。通过建立两者粗耦合的关联关系,绕过准确建模两者关系的困难,在类概念的意义上,解决了语音与说话口形之间非一一对应关系的难以描述的问题。相对采用复杂模型来建模声视频关系,该方案简洁易实现。
(4)提出了基于双层语音码本的说话口形图像预测合成方法。针对单纯基于语音聚类特性生成的口形图像类中存在着口形不完全一致问题,本文提出在每个口形图像类中根据图像相似性二次聚类,生成图像类子集,并反映射到语音特征空间,构建反映语音和口形聚类特性的双层语音码本。根据该码本,实现新输入语音到口形图像类的转换,在此基础上,本文利用搜索方法在候选图像中通过样本重组合成平滑的口形序列。实验结果表明合成口形序列与原始口形序列具有很好的相似性。