小波变换与说话人识别技术

来源 :科教导刊 | 被引量 : 0次 | 上传用户:chinetman
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
  摘要说话人识别技术是根据待识别人的语音与预先提取的说话人语音特征是否相匹配来鉴别说话人身份的一种生物认证技术,具有广泛的应用前景。本文重点研究了说话人特征参数的提取问题,在前人工作的基础上,提出了在噪声环境中更为有效的组合特征参数提取方法。
  中图分类号:TN91文献标识码:A
  
  0 引言
  说话人识别技术是根据待识别人的语音与预先提取的说话人语音特征是否相匹配来鉴别说话人身份的一种生物认证技术。小波分析能同时在时、频域中对信号进行分析,有自动变焦的功能,将小波技术应用于说话人识别对提高在噪声环境下的说话人识别率有很大的改进。本文试图在小波变换的基础上寻找具有强抗噪性能的组合特征参数,以提高噪声环境下系统的识别性能。
  1 小波变换原理
  如果函数,并且满足允许性条件(完全重构条件或恒等分辨条件):
  公式(1)
  则称(t)是一个基本小波或母小波(Mother Wavelet),(t)定下来后,通过母函数的伸缩(Dilation)和平移(Translation)后得:
   公式(2)
  上式称为一个小波序列。其中a为伸缩因子,b为平移因子。
  对于任意的函数f(t)在L2(R)上的连续小波变换定义为:
   公式(3)
  其重构公式(逆变换)为:
   公式(4)
  连续小波变换主要用于理论分析方面,在实际运用中,尤其是在计算机上实现,离散小波变换更适于计算机处理,因此,连续小波必须加以离散化。离散小波定义为:
   公式(5)
  离散化小波变换系数可表示为:
   公式(6)
  其重构公式为:
  公式(7)
  其中,C是一个与信号无关的常数。
  2 基于小波变换的组合特征提取
  2.1 思路分析
  目前,小波分析己经成功地应用于语音编码、端点检测、基音周期提取等方面,但在说话人识别技术中,用小波分析来提取特征参数还处于研究阶段。研究表明,直接小波系数作为特征参数,其识别率较低,但具有较好抗噪声性能,因此难点主要在于如何把直接小波系数转化为代表说话人个性特征的参数。
  2.2 改进的组合特征参数提取方法
  组合特征参数提取:
  方案一:分别对低频部分进行m阶的LPCC特征参数提取,对高频部分进行n阶的△LPCC特征参数提取。
  方案二:分别对低频部分进行m阶的MFCC特征参数提取,对高频部分进行n阶的△MFCC特征参数提取。
  实验证明,文中LPCC和△LPCC的阶数取12,MFCC和△MFCC的阶数取16时识别效果较好。则此时特征参数空间维数为84。低频部分特征参数的权重取1,高频部分特征参数的权重取2。将以上提取的组合特征参数组成特征向量供DTW或VQ识别模型进行识别。
  3 改进的组合特征参数说话人辨认实验
  在相对安静的教室环境下采集这40个说话人的语音,每人念一段10秒钟的报纸材料一作为系统模板的训练。再次采集这40个人的语音,测试样本一的语音内容为10秒钟的报纸材料一,测试样本二的语音内容为10秒钟的报纸材料二,材料一和材料二属于不同的段落,内容不同,汉字重复率随机。
  为了驗证本文提出的组合特征参数的有效性,下面进行两组实验:
  实验A:进行文本相关的说话人辨认实验。将采集的测试数据一分别输入DTW和VQ说话人识别系统进行识别。
  实验B:进行文本无关的说话人辨认实验。将采集的测试数据二分别输入DTW和VQ说话人识别系统进行识别。
  (注:语音相对干净,未加入噪声,为了形成对比,传统特征参数采用MFCC+△MFCC。)
  实验数据如下所示:
  (1)从实验A和实验B的实验数据可以看出,在干净语音环境下,进行文本相关的说话人辨认实验时,应用传统的特征参数提取方法和本文提出的组合特征参数提取方法都能得到较高的识别率;在进行文本无关的说话人辨认实验时识别率较低,原因可能是所念报纸材料文字随机性太大,文字过多,加上测试者较多,在不同的语音速率和相似的声道特点下,就极有可能增加误识率,但从总体上说也达到了识别目的。
  (2)本文提出的组合特征参数提取方案可以达到较好的识别效果。基于DTW模型的识别率低于基于VQ模型的识别率,这和传统特征提取方法得出来的结论是一致的,主要原因在于基于DTW的识别算法过分依赖于端点检测,而端点检测的精度会随着语音的音素不同而不同;其次,本文采用的是传统的端点检测方法,即将语音信号的短时能量与过零率相结合的方法。此法较易发生漏检或虚检的情况,因此影响了该系统的识别率。
  (3)值得一提的是,由于本文的组合特征参数是在小波分解的基础上对小波系数进行提取的,维数较多,输入识别模型的特征向量过多,加上本实验的电脑配置较低,这在一定程度上影响了识别时间,造成识别时间过长。
  4 小结
  说话人识别系统的性能在噪声环境下的识别性能明显降低,本文提出的组合特征参数在噪声环境中能有效改善这一缺点,在噪声环境下比传统特征参数更鲁棒,对于自然环境条件下的说话人识别来说也有一定的研究意义。
  
  参考文献
  [1]Woo S Ch, Lim Ch P,Osman R. Development of a speaker recognition system.using wavelets and artificial neural networks. Processings of 2001 International. Symposium on Intelligent, Multimedia, Video and Speech Processing,2001.2-4:413-416.
  [2]Kinney A, Stevens J. Wavelet packet cepstral.Conference Record of the Thirty-Sixth Asilomar and Computers, analysis for speaker recognition.Conference on Signals, Systems 2002.1(3-6):206-209.
  [3]刘鸣,戴蓓倩,李辉等.基于离散小波变换和感知频域滤波的语音特征参数.电路与系统学报,2000.5(1):21-25.
其他文献
研究目的:研究过氧化物酶体增殖物激活受体α(PPARα)内含子1A/C、7G/C基因多态性、基因环境交互作用与代谢综合征(MS)及其各组份的关系。   研究方法:在2004年建立的江苏省MS队
案例教学法是一种理论结合实际的互动式教学方法.本文以案例教学的理论研究为基础,结合个人在房地产投资分析教学过程中的案例教学实践,对案例教学实施的意义进行了全面阐述,
生产矿井采掘设计图的套晒复制法(简称套晒法)。是用普通绘图笔或可在玻璃、陶磁、铁器上描绘线条的特种铅笔,将准备设计的工程及文字符号,一并描绘在光面透明的聚脂薄膜上(
摘要针对后进生的特点,有效地培养学生的“平等感”和“自信心”,促成后进生的转化,教师应该建立新型的教师观和学生观,努力建立民主平等师生关系,善于发现学生的闪光点,激发他们的自信心和上进心,并能持续关注后进生的发展。  关键词 新课改职业教育后进生  中图分类号:G71文献标识码:A    课改新理念提出:“学校教育必须为学生的终身学习服务,为学生的终生发展奠基。”然而每所学校都有被老师们认为所谓的
摘要在市场经济体制下,市场对资源的生产和配置起基础性作用,高等职业教育在市场经济的环境下,其运作必然受到市场规律的制约,因此要利用市场营销的理论和方法对高等职业教育的运行进行分析。  关键词高等职业教育市场化市场营销  中图分类号:G718文献标识码:A    高等职业教育市场化是指市场在高等职业教育资源生产和配置中起基础性作用。这其中包含两个层次:从宏观上看将高等职业院校作为独立办学主体参与市场
摘要本文论述了在建设和谐社会中高校体育教师如何把和谐社会的发展目标——民主法治、诚心友爱、安定有序、人与自然和谐相处体现到体育教学中,从而对构建和谐社会、教育有一定的参考作用。  关键词和谐社会体育教师高校  中图分类号:G807文献标识码:A    1和谐社会的内涵    胡锦涛同志在中共中央举办的省部级主要领导干部专题研讨班上的重要讲话中,提出了和谐社会并对社会主义和谐社会作了一个全面准确的概
摘要本文从分析我国艺术设计教育改革的当前形势入手,系统阐述了当代艺术设计教育教学改革应是一个全方位、整体的系统工程,应树立全新的教学观念,开放的体系。本文就当下艺术设计教育改革中存在的一些问题提出了自己的思考。  关键词当代艺术设计教育改革系统性开放的体系  中图分类号:G420文献标识码:A    设计作为人类寻求进步、自我完善的手段,随着新经济全球化浪潮时代的到来,在经济发展中起着重要作用。美
当前形势下,依靠政府政策激励和经济带动发展起来的高等职业教育,其局限性在发展过程中也日益暴露出来,尤其是办学个体自身的效益低下,严重制约了高职教育的再发展和再提高.
2月6日,全省宣传部长会议在南昌召开。会议传达了胡锦涛总书记考察江西时的重要讲话精神和全国宣传部长会议精神,总结了2008年全省宣传思想文化工作的经验,表彰了先进,部署了
我矿利用节假日检修期间,将副井的一台JKM3.25×4-Ⅱ型多绳摩擦提升机转子磁力站控制线路进行了改进。经过试车,顺利地实现了节电运行。现简介如下。一、提升机概况1、电动