汉语韵律节奏预测方法的研究

来源 :中国科学院自动化研究所 | 被引量 : 0次 | 上传用户:luowencheng7758258
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
节奏层级的预测是语音合成系统中必不可少的环节,它是生成静音、基频和时长等韵律参数的前提,其准确率很大程度上决定了合成语音的自然度甚至可懂度。本文采用三层结构——韵律词、韵律短语和语调短语来定义汉语节奏。在统计和分析了各级节奏单元的语法特性和长度分布规律的基础上,本文对比了多种统计机器学习模型在汉语节奏预测上的效果,选定了基于最大熵模型的预测框架。与算法相辅相成的是信息的使用,如何有效的利用和优化能够可靠获得的信息以提高节奏预测的精度,是本文的研究重点所在。具体来说,本文的主要工作包括以下几个方面:   (1)构建了大规模的节奏标注语料库。统计分析指出,浅层语法信息与低层节奏单元的对应关系比较明显,深层语法信息,无论是语法结构的层级高低还是短语类型,都不能为高层节奏单元的界定提供确切的信息。   (2)对三个节奏层级分别进行了统计建模。根据语法词合并和分解生成韵律词的特点,韵律词预测的模型分为归并模型和分解模型。韵律短语和语调短语预测的模型既考虑了语法约束,也考虑了短语自身的长度分布规律。基于最大熵模型比较了多种特征选择方法,实验结果显示,只要保证了特征的统计稳定性,不同特征选择方法的效果相差不大。在语调短语预测中,本文尝试使用深层语法信息,但效果不明显。本文还提出了多种长度约束模型,细致的分析了长度信息对语调短语预测的贡献,得出了一些有趣的结论:人们在说话时,倾向于长短相间的停歇;节奏的规划是一种短时的局部规划;对短语长度独立建模能够有效地抑制错误传递,因此效果好于将长度信息作为统计分类模型的特征之一。   (3)提出了自动调整词性集的策略。首先基于层次聚类的思想设计了词性缩减的迭代算法,并提出了度量词性相似度的向量空间模型和条件概率模型,对词性聚类算法进行了优化,大大缩短了词性聚类算法的收敛时间。然后又基于对数似然比来选择对短语边界最具区分能力的关键词,并设计了词性增补的贪心算法。实验结果显示,词性集的自动调整显著地提高了节奏预测模型的性能。   (4)提出了两种自动生成特征模板的客观方法:基于决策树的规则转化法和基于层次聚类的贪心算法。前者将决策树叶子节点对应的规则转化为TBL算法的模板。实验结果显示,决策树模板既能较好地替代手工模板,也能为手工模板提供有益的补充。后者在每轮迭代中,都选择对预测结果改善最大的特征对合并成模板。特征合并算法在减少了人工参与的同时,显著地提高了语调短语预测的精度,并且还大大缩减了模板的数日。   (5)提出了一个综合利用文本和声学信息的节奏自动标注方法。该方法采用基于最大熵模型的层级架构,使用不同的特征集对不同的节奏边界分别建模。对比实验显示,层级模型优于单层模型,声学特征在停延段边界的识别中表现突出,但对于识别韵律词边界不起作用,基频跃变对于检测韵律短语边界贡献较大,能量也能为语调短语边界的识别提供重要信息。   本文针对特征优化所做的工作,包括特征选择、词性集调整、模板生成等,不仅可以改善汉语节奏预测的效果,也可以推广到自然语言处理的其它领域,具有一定的普遍意义。  
其他文献
本文的工作围绕永磁同步电机伺服系统的控制方面展开,主要涉及永磁同步电机矢量控制系统的具体实现、系统级仿真开发和模糊PID控制器设计,在理论分析、计算机仿真和具体实现三
学位
电子设备应用密集,无线通信应用领域不断扩大,地球的电磁环境越来越复杂。这对电子设备的设计和正常运行的影响越来越大。各国都十分重视对复杂电磁环境分析方面的研究,而国
本文研究了水下机器人(仿生机器鱼)的路径规划以及轨迹跟踪控制。   首先,分析了机器鱼的运动特性、水波动力学、以及机器鱼碰撞模型,建立了一个水下机器人的仿真系统。利用
微型ROV能够搭载在7000米载人潜水器上,与载人潜水器组成子母式系统,配合载人潜水器完成较为复杂的任务。它自带能源,运动灵活,携带摄像机及多种传感器,可以在载人潜水器不能或不
仿生机器鱼作为一种新型的水下机器人,具有广阔的应用前景,本文主要针对波动鳍推进仿生机器鱼的设计与控制,从仿生机器鱼的机构和控制电路设计、动力学建模、运动控制方法、自主
学位
生物特征识别作为一种新的身份识别的方法,克服了传统技术的缺陷,近年来受到了越来越多的关注。虹膜作为一种生物特征,具有唯一性、稳定性、非侵犯性,以及更高的准确性等优点,因此
学位
随着计算机网络技术及多媒体制作技术的不断发展,信息内容的形式已经从简单发展到复杂,从以前单一的文字、图像内容发展到现在具有丰富信息的多媒体内容,而且多媒体资源的数量也
学位
参量声源是一种根据声参量阵原理,利用声波在空气中的非线性传播效应以产生高指向性可听声的新型声源。本文主旨是在分析现有参量声源信号处理方法信号失真的基础上,提出了一
本文讨论耦合范德波尔(Van der Pol)振子的一致性问题。首先讨论线性耦合和非线性耦合情况下的相位同步现象,通过数值方法确定实现同步的耦合参数值,并利用线性化方法和Floquet
运动目标检测与跟踪是计算机视觉的主要研究方向之一,它在人机交互、智能监视、医学图像分析、移动机器人视觉导航、视频图像分析等领域中有着广泛的应用。本文在总结目前已有
学位