基于声韵母的嵌入式语音合成

被引量 : 3次 | 上传用户:klammj
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
随着人工智能的发展,嵌入式语音合成成为最自然的人机交互方式,拥有广泛的应用前景。目前,由于大规模的语音合成对运算速度和存储容量的要求较高,嵌入式设备在进行语音合成时,一部分采用网络和云计算的方式,在离线状态下不能使用,还有一部分自带一个语音芯片,在离线状态下可以进行一些简单的语音合成,但使用环境比较受限。此外,由于构建大规模语料库的工作量较为庞大,导致定制个性化语料库成为了一个难题。鉴于大规模语料库进行语音合成时所带来的种种问题,本文舍弃了大规模语料库的主流思想,采用声韵母作为合成基元,对连续语音段内声韵母进行分割和筛选,最后语料库中只保留适量的声韵母样本。这样的处理方式在存储空间、匹配调用以及定制个性化语料库上都有很大的优势。本文基于声韵母的语音合成主要完成了以下三方面的工作:(1)连续语音段内声韵母的分割:提出一种基于损失函数和听觉谱边界特征参数的连续语音段内声韵母分割的方法。首先建立自相关函数和代价损失函数,采用动态规划方法进行浊音的检测,然后根据统计规律,在声母段时长范围内检测听觉谱边界特征参数参数的特征突变点,进行声韵母分割。仿真实验结果表明,该分割方法减小了由于声母发音方式、音变和噪声对分割结果的影响,提高了声韵母分割的准确性。(2)建立声韵母语料库:设计语料库中需要包含的声母和韵母的样本模型。首先针对不同声韵母组合的协同发音规律,将声韵母进行分类,依此对语料库中需要包含的内容进行设计。然后从连续语音段中提取这些声韵母基元,进行人工校对和修正。最后统一编辑命名,完成声韵母语料库的建立。(3)基于声韵母的语音合成:改进了时域基音同步叠加(Time Domain Pitch Synchronous Overlap Add, TD-PSOLA)的语音合成方法,使其适用在基于声韵母的语音合成中。首先引入合成的韵律修改参数,然后建立了字和词的韵律模型,最后针对复杂的发音情况设计了一套韵律符号。仿真实验结果表明,该方法具有较高的准确度和自然度。
其他文献
有机电致发光器件(Organic light-emitting device,OLED)以其全固态、响应快和可柔性等优异特性,成为21世纪最具发展潜力的固体照明和显示设备。与目前其他传统的器件比较,OL
房地产开发项目投资,在中国近几十年的发展中属于一种高收益,但伴随着高投入高风险的投资方式。如果在房地产项目的开发过程中能够做到注重加强可行性研究分析,可以有效减少
高速公路是城市快速交通的主干线,已成为经济发展的脊梁。高速公路路面状态的安全级别受自然因素影响较大,比如降雨、大雾、降雪与融雪等都将影响高速公路的运营状况。本文以
水稻田除草剂对水稻的隐形或显性伤害是普遍的,轻者抑制水稻的分蘖发生或根系生长,重者矮化、白化、僵苗、甚至死苗等。噻唑锌、丙森锌具有促进植物生长、提高作物抗逆性等作
等离子切割(PAC)是利用高温高速的等离子弧及其焰流,将部分金属融化及蒸发,并吹离基体,随着等离子弧割炬的移动而形成切割的一种金属加工方法。该切割技术具有切割刀面平整、
自主导航定位技术是真正实现机器人智能化的重点和难点之一,其中视觉里程计技术一直是学者们热衷的研究方向之一。与传统的同时定位与制图(SLAM)方法相比,视觉里程计更加简洁
科学的运量预测对区域内各种客运方式的规划建设、运输组织、经济效益及市场分配等有巨大的影响,而现有的公路客运量预测方法多以短期预测为主,能够精细预测中长期的方法较少
目的该研究以住院治疗的老年2型糖尿病(T2DM)患者为研究对象,通过对两组不同体重指数(BMI)患者的代谢指标(部分血生化指标、血糖代谢指标、同型半胱氨酸等)研究,探讨该群体患者肥胖与代谢指标的关系。方法选取就诊于2014年06月到2018年03月于兰州大学第一医院内分泌科住院治疗的491例T2DM患者,凡纳入此次研究的对象年龄均限定在60岁以上。参照中国肥胖划分的标准,以24kg/m2 BMI值
发展模式是决定区域电子商务产业集群发展壮大的根本因素。区域电子商务产业集群发展满足复杂适应系统(CAS)的四个基本特征和三个交流机制,因此可基于该理论的"刺激—反应"模
现代社会的快速发展,亟需知识面广、综合能力强的人才,素质教育是现代教育的重要表征。经过近二十年素质教育政策的全面推进和教育改革的深化,带来了学校建筑空间的变革。城