语音信号的增强及其识别算法

来源 :南京信息工程大学 | 被引量 : 2次 | 上传用户:alyue_wang
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
语音是人类用来传递信息最关键、最主要的方式之一。语音增强的主要目的就是从参杂了环境噪声的语音信号中提取出来原始的语音信号。本文前三章主要是将语音增强作为研究的目标,结合小波分析和变分模态分解(Variational Mode Decomposition,VMD)算法,本文提出了一种基于VMD和小波分析相结合的语音增强方法,为接下来语音信号的特征提取以及识别做铺垫。本文第四章和第五章主要是详细介绍了梅尔频谱倒谱系数和逻辑回归算法,在前面语音增强的基础上先采用梅尔频谱倒谱系数对采集到的各个年龄段的说话人的语音进行特征提取,再采用基于粒子群的逻辑回归方法对采集到的各个年龄段说话人的语音数据特征进行识别分类。主要研究内容包括:(1)针对小波变换中一般采用软阈值和硬阈值来对语音信号进行增强会造成目标信号丢失的问题。提出了一种改进小波变换方法,该方法采用改进的阈值函数和自适应阈值来对小波系数进行分解处理,然后对高频部分进行重构,从而减少增强过程中对目标函数的影响。(2)提出了一种基于VMD和小波分析算法相结合的语音增强算法。该算法首先利用VMD对原始语音信号进行分解,分别对各模态分量进行相关性分析并设定阈值,对低于阈值的模态分量进行小波阈值处理,提取有用信号并与其他模态分量进行重构。通过仿真实验结果表明,采用本文提出的方法,增强后得到的信噪比提高很多,且避免了在直接采用EEMD和VMD增强过程中出现部分有用信号丢失的情况,最终实现了良好的增强效果。(3)对采集到的不同年龄段的说话人的语音特征进行分析,最终通过梅尔频谱倒谱系数的方法对采集到的不同年龄段的说话人的语音进行特征提取。(4)考虑到传统逻辑回归方法中会出现局部极小值的情况,本文提出了一种基于粒子群的逻辑回归的分类方法,很好的缓解了局部极小值问题同时也提高了收敛速度。并用该方法对采集到的各个年龄段的语音数据进行相关的建模训练研究,实现对各个年龄段说话人的识别分类,并分析实验结果。
其他文献
老城区作为城市交通中的最复杂区域,是城市规划实践中的一大难点,长期以来都是国内外学术界交通领域的研究热点。近些年,诸多城市在改造老城区过程中树立了以人为本、公交优
本文为了解决活品贝类高品质无水载运问题,以虾夷扇贝、海湾扇贝及菲律宾蛤仔为活贝标本,结合其生物特性开展了净化暂养、载运条件、密封包装、货架期预测方法等载运关键问题
早在我国宋元以来形成的各种戏曲,以歌舞、宾白并重,亦属歌剧的性质。中国歌剧的发展从1920年黎锦晖的儿童歌舞剧开始了中国歌剧的萌芽,随后在1935年的《扬子江暴风雨》、193
目的体内研究验证MEX3C基因对IGF-1蛋白表达及小鼠卵泡发育的影响。方法采用PCR法鉴定4周龄FVB小鼠基因型,鉴定基因后,分为野生型和纯合子型,在此基础上设置4个实验组,每组6只(n=6),分别为野生型组、MEX3C基因敲除小鼠纯合子(简称纯合子组)、纯合子+IGF-1处理组、纯合子+海藻糖(简称处理对照组)。野生型组和纯合子组不做任何处理,纯合子+IGF-1处理组于腹腔注射IGF-1(剂量
1.奥尼尔奥尼尔是南高丛蓝莓的代表品种之一,适合栽培在暖温带至亚热带地区。树体长势旺,树高2米,半直立,落叶,开花早,花期长。早熟,极丰产,果个大,成熟时果实呈蓝黑色,果粉较少;果实球形
<正>银行理财产品跟踪数量规模:理财产品放量发行2016年11月份,商业银行新发行理财产品8197款,募集资金规模3.35万亿元人民币。产品发行数量环比上升25.6%,募集资金规模环比
在唐代的官方视野当中,官员会食即是一种公务性质的聚会形式,不是普通带有娱乐性质的官员聚会。在唐以前便有此种相似的官员聚会形式,但却没有形成完整的体系,直至唐太宗时期
【正】 一、问题的由来 1954年《历史研究》创刊,胡绳同志发表《中国近代历史的分期问题》,检讨以往中国近代史书按皇位、当权者的更迭来划分时期以及放弃分期、逐一叙述若干
社会保障权是一种基本的人权,也是现代文明法治社会人们应该具备的基本权利,该项权利有着很丰富的内涵。它的存在具有深刻的社会背景,经过几个世纪的发展,如今社会保障权的进
刑事强制措施是一项关乎犯罪嫌疑人、被告人基本权利的制度,修订后的刑事诉讼法对强制措施体系进行了较大的修改完善。本文拟从实务的角度,在修订后的刑事诉讼法语境下,浅谈