群智感知中语音识别特征提取方法的研究

来源 :燕山大学 | 被引量 : 0次 | 上传用户:jueduizhi
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
大多数群智感知中的语音识别系统在采集语音信号时所处的环境越来越复杂,并且对其所部署在的声学环境的性质存在敏感性,在存在诸如加性噪声,线性信道失真和混响的情况下,群智感知中的语音识别系统性能急剧恶化。因此,相比于传统的语音识别系统,群智感知中的语音识别系统需要更好的鲁棒性和压缩比。针对群智感知中语音识别系统面临的这些问题,该文对已有语音识别系统使用的梅尔倒谱系数(Mel-scale Frequency Cepstral Coefficient,MFCC)进行改进,并把这种改进后的系数称之为“功率归一化倒谱系数”。首先,研究了传统MFCC的提取算法,分析了该算法每一处理过程的实现原理;补充了MFCC算法构成语音识别系统中使用的MFCCs;实现了MFCC的提取,但在实现的过程中,为了降低计算过程中的数量级对MFCC提取算法提出了猜想,并且对MFCC提取算法进行了补充实验以验证我们的猜想。其次,针对白噪声情况下的语音识别系统,为了提高语音识别的精度,在语音特征提取的前期处理阶段使用基于人耳耳蜗听觉模型的伽马通滤波器组代替MFCC算法中的梅尔滤波器组。再次,针对语音识别系统面临的声学环境退化和背景噪声水平评估问题,为了更加准确地估计声学环境恶化且更加容易地删除缓慢变化的语音分量,在语音特征提取的环境补偿阶段首先使用50-120ms的长时帧与短时帧相结合来分析参数,然后使用“非对称非线性滤波”估计每帧和每频带的声学背景噪声水平。最后,针对人耳更加关注入射功率包络的开始而不是该功率包络下降沿的特性,在语音信号处理块实现暂时掩蔽。对于输入信号功率,除上升的“攻击瞬变”外,暂时掩蔽抑制了其他部分信号功率的系统响应。同时,把输入功率除以正在运行的平均总功率来实现输入功率的归一化,以实现语音特征提取的实时性。
其他文献
铜具有良好的导电导热性以及延展性,已经广泛应用于电气、电子、机械制造业等行业。但铜的硬度和屈服强度较低,耐磨性差,使得铜在使用过程中过早失效。在铜基体中加入碳制备
过程工业工厂通常由若干套装置构成。由于工艺特点不同,各装置间的热平衡是不同的;或热过剩、或热欠缺,孤立用能必然导致富热装置能效低、冷却负荷大,贫热装置高等级公用工程
我国煤炭资源丰富但煤层地质赋存条件较为复杂,煤层具有“三高一低”(高瓦斯含量、高瓦斯压力、高吸附性、透气性低)的特点,使得煤矿生产瓦斯灾害严重,特别是近年来煤炭开采
北武夷地区岩浆活动频繁强烈,侵入岩具有多期、多阶段活动和岩石类型复杂的特征,燕山期侵入岩广泛发育,其次为加里东期、印支期侵入岩;多金属矿产资源丰富,矿床类型复杂多样
四旋翼飞行器是旋翼式无人飞行器中的一种,也是近年来新兴的一种超小型飞行器。随着科学技术的不断发展,以及微机电、微导航技术的出现,四旋翼发展进入了新的时代,各国都开设
业务流量的快速增长正推动光传输网络技术的发展,宽带业务的普及使光纤通信得到进一步的发展,要求更大规模的光交叉连接(OXC)。传统的交换技术中,随着光纤数目和波长数目的增
密肋复合墙结构是一种低碳、环保、保温的绿色节能建筑,且具有抗震减震性能好、施工速度快、社会效益与经济效益高等特点。该体系目前进入全面推广阶段,由于密肋复合墙结构现
编码的基本问题之一是通过各种方式构造性能较好的码.近几年,很多学者专注于研究有限域上码长为合数的特殊类型的常循环码,学者们主要研究这些码的结构和性质,为寻找性能较好
白垩系青山口组是齐家凹陷勘探主要目的层,目前对齐家凹陷青山口组三级层序划分及特征有比较统一的认识,但对金28工区高台子油层四级层序划分及分布特征还不太清楚,本文针对
本文充分利用已有的地震解释、测井等相关地质资料,对敖包塔构造断裂几何学特征、运动学特征进行系统研究,结合断裂期次划分结果,将研究区断裂系统划分为四类。在断裂特征分