语音合成系统中决策树改进算法的研究与应用

来源 :中国科学技术大学 | 被引量 : 0次 | 上传用户:wennny77
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
语音合成技术日趋成熟,己广泛应用于社会生活的各个领域,为人们带来了便利。但在应用多样化与用户多样化的形势下,人们也对语音合成效果提出了更高的要求,而目前,各种技术合成的语音相对自然语音而言,仍然显得比较机械,还普遍存在着自然度不够高、音质不够清晰以及音色失真等问题。本文基于隐马尔科夫模型(HiddenMarkovModel,HMM)的可训练语音合成(TrainableTTS)技术,从其关键的决策树算法入手,分别对文本分析前端和语音生成后端使用到的决策树算法进行了改进。   在文本分析前端,其效果瓶颈在于韵律短语边界的预测,本文对此进行了重点研究,引入韵律短语条件概率,使用Viterbi算法同时优化韵律短语边界概率和条件概率,并提出了基于关键词在韵律短语中的位置分布特性的决策树节点概率优化方法,有效的改善了韵律短语边界预测的效果。而在语音生成后端,本文引入GBDT(GradientBoostDecisionTree)决策树聚类算法,分别应用在频谱、基频、时长等三个维度的语音参数上,通过实验发现,该方法一方面在一定程度上提升了合成语音的音质,另一方面用其压缩决策树,可有效降低嵌入式语音合成产品的资源占用,提高产品的灵活性。以下是本文的结构安排:   论文第一章是绪论,在其中将简单介绍语音合成技术与决策树算法的研究内容与国内外研究进展,重点介绍决策树算法在语音合成系统中的应用以及本文的主要研究方向。   论文第二章将介绍分类数据挖掘理论与现有的几种主流的决策树算法,及决策树算法的训练、生成与剪枝方法,并在后半部分描述了随机森林与GBDT算法。这些内容是本文研究工作的基础所在,也是后续章节研究内容的基本出发点。   论文第三章重点介绍提出的改进的基于决策树算法的L3边界预测方法,并通过实验证明了通过该方法在语音合成系统中进行L3边界预测,可以有效提高F-Score值并降低不可接受率。   论文第四章介绍了GBDT算法在基频参数、频谱参数以及时长参数上的应用,实验表明该方法在频谱参数取得的效果最为明显,而在基频和时长这两维参数上取得的效果是主观听感均无明显改善,但在客观指标上有提升。   最后,本文在第五章中对全文进行了总结,并指出了当前决策树改进方法中存在的问题以及下一步的研究方向。
其他文献
随着移动通信技术的快速发展,用户对于网络质量和数据速率的要求越来越高。家庭基站的出现有效解决了宏基站在室内覆盖不足的问题,提高了数据传输速率和用户体验感知,因此,家
进入21世纪以来,认知无线电成为无线通信领域的一个新兴热点。认知无线电是一种智能的频谱共享技术,认知用户通过频谱感知伺机占用授权用户遗留的空闲频谱资源,有效地改善了
安居乐业是人类长久以来孜孜不倦的追求,进入现代社会以来,随着生活水平的不断提高,科学技术的不断发展,如何让家居环境更加舒适、更加便捷、更加智能成为了科学研究的热点,因此,智
网络虚拟化作为未来异构网络融合的重要支撑技术已经获得越来越广泛的关注和研究,它通过分割和整合基础设施网络资源以满足若干虚拟网络并行共享底层网络的业务需求,从而支持
目前针对面向室内跟踪应用的无线传感器网络,如何结合无线传感器网络自身低功耗、低传输速率的特点以及室内复杂的信道环境,有效的提高跟踪定位精度成为一个迫切需要解决的问
异构无线网络融合是下一代移动通信的必然发展趋势。切换管理是移动性管理的重要组成部分,而我们研究的选网策略是一个承前启后的阶段,它是影响切换质量的关键因素。同时,网
近年来,随着我国人口老龄化进程不断加快以及物联网技术的发展,传统的家庭健康服务模式已无法满足家庭用户的生活需求,人们对居家健康服务的智能化及智慧化的要求不断提高。
为满足未来移动通信系统对更高数据传输速率的迫切需求,达到或者超过国际电信联盟的要求,建立真正的第四代移动通信技术标准,3GPP组织开发了高级长期演进(LTE-A)项目。LTE-A是LT
近年来,工业界和学术界开展了大量研究工作,致力于加速发展智能交通系统,为车辆用户提供安全、有效、舒适的驾驶环境。其中,很大一部分的工作集中在如何有效地将无线通信技术、计
动态场景中的视觉监视是目前计算机视觉领域最热门的研究课题之一,尤其是对人类和车辆。它的应用范围非常广泛,包括特殊地区的访问控制,远距离人体识别,人群统计分析及人流堵塞,异