英语语音重音的自动探测

被引量 : 0次 | 上传用户:flyhiger
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
语音韵律的生成在参数合成的语音合成中占有很重要的地位,高质量的合成语音往往需要依赖大量的已标注语料为基础。因此,语料库能否进行快速、精准的韵律标注对语音合成具有重要意义。大型语料的标注需要耗费大量的人力物力,而长时间、高强度的人工标注一致性较差,容易出错,也会带来极高的成本,这就对快速构建语料库提出了更高的要求。对语音合成的多样化需求,要求语音库能够适应各种软硬件环境,并且构建在不同口音、不同语气、不同说话风格的语音来源上。若能实现韵律的极小化标注,以极少的标注语料实现韵律的自动标注,就可以大大降低语料库构建的成本,进而降低语音合成的成本。对此,我们在一般性语料的基础上对语音进行文本处理、极小化标注,并利用监督学习和无监督学习进行模型训练,实现韵律的自动标注,本论文的主要研究工作和内容如下:1)根据一般性语料的特点,利用基于GMM的音频分类方法和语者分类软件对原始音频进行分类和切分,去除音乐和杂音得到纯正的语音。在词的级别上对语音进行声学参数的选择和提取,结合预处理过的文本得到大量的未标注特征文件。为了实现有监督和半监督学习的训练,利用韵律标注体系ToBI进行了一定量的手工标注。2)为了获取与韵律特征最相关的声学韵律特征,利用praat软件抽取声学参数,生成韵律相关的声学韵律参数,然后利用机器学习中的几种模型训练学习方法对已标注样本进行模型训练,分别将已标注样本在最大熵、实例学习、adaboost和J48算法环境下进行模型训练,并对几种韵律标注结果进行结果比较和分析。3)半监督学习利用极少量的有标注实例对大量未标注实例进行自动学习,因此,我们利用基于co-training的半监督学习方法构建基音重音的韵律自动标注体系,详细阐述了训练模型的设计和简化;并在此基础上与有监督学习方法的训练结果进行了性能比较。Co-training算法的协同训练方法不需要大量的已标注文件,与有监督学习相比,提高了效率和大量未标注文件的利用率。本文选择的语料库为一般性语料库,没有经过专门的录制和处理,因此对原始语料库的选择进行一定的扩展,并且对语料库的声学处理和文本处理都是最基础的处理,不需要耗费大量的时间和精力。自动标注体系的重点之一在于韵律特征和声学参数选择和提取上,通过完善韵律与声学参数的对应规则来提高重音的自动标注。而Co-training算法的引入,大大降低了人工标注量,以极小化标注实现韵律的自动标注。
其他文献
<正>为期两天的第二届海峡两岸节能环保产业论坛近日在安徽省马鞍山市开幕。来自海峡两岸的200多名节能环保领域的专家学者和知名企业代表汇聚于此,共商节能环保产业合作,发
期刊
恶劣的天气条件给道路交通行车安全带来了巨大的风险,为了实现道路路面状态检测和预警,对非接触式遥感路面状态检测预警系统进行了研究。以路面温度、潮湿系数、积水厚度、冰
文章通过对于中国股市上市公司利润操纵的相关分析,总结了利润操纵的主要目的以及主要方式,并针对其方式提出相关建议,意在规范上市公司会计报告的真实性,及时性,以及可靠性
近年来,我国境外投资出现迅猛发展势头,投资规模增大、范围扩大、行业增多。但是企业在境外投资的过程中也遇到了诸多问题,然而,有困难就有对策,长虹集团境外投资案例,可以给
阻燃沥青能够提高隧道内沥青混凝土路面的安全性,通过氧指数试验、抑烟试验、马歇尔试件燃烧试验、现场燃烧试验对阻燃沥青及其混合料的阻燃性能进行了一系列的试验研究,试验
<正>大禹,名文命,其父为鲧,黄帝之玄孙。是夏朝的第一位天子,他最卓著的功绩是治理滔天洪水,划定中国国土为九州。尧帝时,中原洪水为患,百姓愁苦不堪。尧帝任命大禹的父亲鲧
针对银山九区铜硫矿石易氧化的特点 ,研究矿石的氧化过程 ,并就消除氧化作用对选矿的影响进行试验研究 ,获得较好的技术经济指标。
【目的】利用依存句法分析构建更准确的文本网络,提高基于网络图的文本特征提取方法的准确率。【方法】根据依存句法分析的结果确定特征词之间的语义关联,利用特征词依存方向
21世纪是知识经济时代,是数字化革命和信息化生存的时代,中国企业要想在激烈的国内外竞争中占有一席之地,除了要具备领先的科技和管理水平之外,更要具备领先的信息建设能力和
<正>手术切除肿瘤、术后辅以化疗或放疗是胃肠道恶性肿瘤传统的治疗方法,并取得了较好的疗效。然而传统的治疗方法虽然延长了病人的生存期或肿瘤的复发、转移时间,却并不能使