基于改进Mel特征提取算法的说话人识别研究

来源 :重庆邮电大学 | 被引量 : 0次 | 上传用户:wuyan425
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
说话人识别作为语音识别的一个分支,其本质是根据说话人的声音识别出说话人的身份。近年来,身份认证技术和移动互联网技术发展日益激烈,说话人识别正逐渐从实验室环境走向实际应用。而在实际工程应用中,更多的是在各种噪声环境和较低信噪比情况下使用说话人识别技术,因此,本文对说话人识别系统在低信噪比下的关键技术进行研究,具有重要理论意义和实际应用价值。首先,文章对语音信号的相关基本理论进行了全面研究,其中对语音信号的预加重、分帧加窗进行了重点分析,针对传统谱减法在低信噪比下对噪声抑制效果差的问题,提出了一种基于听觉感知特性的语音增强方法,在实验中与典型方法对比,改进的方法可以有效提高信号在低信噪比下的抗噪性。其次,针对低信噪比下不同噪声类型端点检测质量下降的问题,提出了一种基于模糊熵和改进相关向量机结合的端点检测方法,提取每帧信号的模糊熵作为相关向量机的输入矢量,同时针对单一核函数对预测分类鲁棒性弱的问题,对不同核函数进行自适应多核组合,融合多个核函数的特性,提高分类精度和鲁棒性。实验结果表明,在低信噪比环境下,基于模糊熵与改进相关向量机的端点检测能更有效地检测出语音的端点。然后,对在语音信号特征提取中常用的两种特征参数,即线性预测倒谱系数和Mel频率倒谱系数进行了研究,针对MFCC在噪声环境下识别性能下降的问题,提出了更能模拟人耳特性的伽马通啁啾滤波倒谱系数(Gamma-chirp Filter Cepstral Coefficient,GCFCC),同时提取每帧信息基音频率,将GCFCC和基音频率数据融合,利用核主成分分析(Kernel Principle Component Analysis,KPCA)转换降维。实验结果表明,本文提出的改进特征提取算法在识别率和计算复杂度性能方面都有一定程度的提高。最后,研究了说话人识别的声学模型系统的构建与分析,针对说话人识别系统声学模型的参数估计与初始化的问题,提出利用最大似然估计与期望最大化算法对初始参数进行估计,针对模型初始参数局部解的问题,提出利用K均值聚类算法进行初始化,最后搭建了完整的基于改进Mel特征的说话人识别系统,通过实验验证了系统方案的可行性。
其他文献
由于食品组分中蛋白质、多糖之间的相互作用可以显示出比独立使用时更优越的性能,并影响食品体系的风味、营养、质构等品质,多糖/蛋白复合物研究正日益成为世界各国科技工作
目的:胃癌是消化系统肿瘤中最常见的恶性肿瘤之一,了解与胃癌发生发展相关的因素,能为患者提供更好的预防措施和更合理的治疗选择。胃癌的发生是多种因素综合作用下的结果,包
在巨型激光装置下装工装模块的装校过程中,其中非常重要的一步为进行洁净保持箱与洁净厢的精密对接,基于此,本文设计出一种六自由度位姿调整的精密对接平台。该平台采用两种
产气荚膜梭菌通过其产生的外毒素能引起人畜的创伤性感染。鸡的坏死性肠炎就是由A或者C型产气荚膜梭菌引起的,它能导致鸡的小肠粘膜出血、坏死。近年来,随着国内外对抗生素和
动力电池系统是电动汽车的核心系统之一,为了保障动力电池使用的安全性,延长动力电池的使用寿命,必须配备电池管理系统对其进行管理。动力电池作为一种复杂的化学储能装置,其
常压加热炉是炼油厂原油常减压分馏装置的主要耗能单元,基于富氧燃烧过程是高效利用能源及降低能耗的有效手段。本文主要通过数值模拟对以天然气为燃料的32 Mw常压加热炉的富
目的:评估老年2型糖尿病(T2DM)伴发非酒精性脂肪肝(NAFLD)患者代谢及血管病变的特点,探讨T2DM和NAFLD对健康的综合影响。方法:将268例老年T2DM患者分为观察组102例(合并NAFLD)和对照组
目的探讨慢性中耳炎手术方法。方法2005年7月至2007年7月为45例46耳慢性中耳炎,胆脂瘤性中耳炎及中耳炎后遗症患者经耳内切口,在清除病灶的同时采用自体外耳道一乳突骨膜,骨质修