论文部分内容阅读
语音韵律的生成在参数合成的语音合成中占有很重要的地位,高质量的合成语音往往需要依赖大量的已标注语料为基础。因此,语料库能否进行快速、精准的韵律标注对语音合成具有重要意义。大型语料的标注需要耗费大量的人力物力,而长时间、高强度的人工标注一致性较差,容易出错,也会带来极高的成本,这就对快速构建语料库提出了更高的要求。对语音合成的多样化需求,要求语音库能够适应各种软硬件环境,并且构建在不同口音、不同语气、不同说话风格的语音来源上。若能实现韵律的极小化标注,以极少的标注语料实现韵律的自动标注,就可以大大降低语料库构建的成本,进而降低语音合成的成本。对此,我们在一般性语料的基础上对语音进行文本处理、极小化标注,并利用监督学习和无监督学习进行模型训练,实现韵律的自动标注,本论文的主要研究工作和内容如下:1)根据一般性语料的特点,利用基于GMM的音频分类方法和语者分类软件对原始音频进行分类和切分,去除音乐和杂音得到纯正的语音。在词的级别上对语音进行声学参数的选择和提取,结合预处理过的文本得到大量的未标注特征文件。为了实现有监督和半监督学习的训练,利用韵律标注体系ToBI进行了一定量的手工标注。2)为了获取与韵律特征最相关的声学韵律特征,利用praat软件抽取声学参数,生成韵律相关的声学韵律参数,然后利用机器学习中的几种模型训练学习方法对已标注样本进行模型训练,分别将已标注样本在最大熵、实例学习、adaboost和J48算法环境下进行模型训练,并对几种韵律标注结果进行结果比较和分析。3)半监督学习利用极少量的有标注实例对大量未标注实例进行自动学习,因此,我们利用基于co-training的半监督学习方法构建基音重音的韵律自动标注体系,详细阐述了训练模型的设计和简化;并在此基础上与有监督学习方法的训练结果进行了性能比较。Co-training算法的协同训练方法不需要大量的已标注文件,与有监督学习相比,提高了效率和大量未标注文件的利用率。本文选择的语料库为一般性语料库,没有经过专门的录制和处理,因此对原始语料库的选择进行一定的扩展,并且对语料库的声学处理和文本处理都是最基础的处理,不需要耗费大量的时间和精力。自动标注体系的重点之一在于韵律特征和声学参数选择和提取上,通过完善韵律与声学参数的对应规则来提高重音的自动标注。而Co-training算法的引入,大大降低了人工标注量,以极小化标注实现韵律的自动标注。