基于HTK的日语连续语音识别系统的建立与研究

来源 :计算机光盘软件与应用 | 被引量 : 0次 | 上传用户：junyuan__zhang

【摘要】

：

【作者】

：

孙一鸣　刘葳

【出处】

：

计算机光盘软件与应用

【发表日期】

：

2013年16期

【关键词】

：

连续语音识别动态范围调整归一化算法

下载到本地 , 更方便阅读

下载此文赞助VIP

声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架

论文部分内容阅读

　　摘要：本文简单介绍了几种减少噪音带来的待识别信号特征与模型特征不匹配的方法，针对噪音环境下语音特征的变化特点，重点分析了归一化方法，并对动态范围调整方法做了重点的介绍。通过分析孤立词识别中存在的问题，提出了在连续语音特征曲线中基于动态范围调整的新方法。
　　关键词：连续语音识别；动态范围调整；归一化；算法
　　中图分类号：TN912.34
　　当噪音引起连续语音信号失真时，提取的连续语音特征曲线也会在时域和频域内失真[1]。如果用带噪特征去匹配纯净语音的特征模型，会造成带噪特征与模型之间的不匹配，这就导致了识别率的下降。
　　在连续语音识别中为了减少上述不匹配的问题，有三种主要解决技术。一是多条件或者多类型的训练方法，也就是使用带噪数据来进行训练[2]。虽然这个方法能够在特定的噪音环境下可以得到较好的识别精度，但是如果噪音环境发生变化识别精度还会急剧的降低。换言之，如果待识别数据与模型数据的条件（环境）不同，如：信噪比或者噪声类型，在待识别数据和模型之间仍会存在不匹配的现象。二是采用自适应模型方法[3]，通过自适应模型来减少不匹配的问题。这种训练模型方法同时使用纯净和噪音数据来进行训练，这又会导致模型的区分度不高，同样会是识别精度下降。三是采用特征归一化方法，这种方法虽然不能从根本上改变待识别特征与模型之间的不匹配，但是在一定程度上会保留模型的区分度并减少由于环境变化导致带噪语音失真的影响。本文主要研究第三种方法。
　　语音增强和特征补偿方法以恢复语音特征为目的，但是特征归一化方法只是对语音特征的某些统计信息进行改变，并期望由此减少噪声引起的失真。不论是语音补偿还是特征补偿，都需要改变语音的特征向量，而传统的归一化方法只是对语音特征统计信息的范围进行处理，提出的算法在保证原有语音统计信息的前提下，适当改变部分语音特征向量。从而减少由噪音引起的语音特征曲线的失真。
　　动态范围调整方法属于归一化方法的一种，能够对干净和带噪语音的特征统计信息处理到相对较小的一个范围内。归一化方法能够根据一些模板值减少噪音特征在统计信息上的影响。相比使用归一化方法之前，在干净语音特征和带噪语音特征之间的不匹配部分会显著减少。语音增强一般应用在时域和频域中恢复语音特征的质量。特征补偿方法通常应用在加强连续语音系数在对数滤波阶数和频谱域使用。
　　减少待识别语音特征和模型的不匹配的方法虽然不是提高语音识别鲁棒性的唯一方法，但却是一种很有效的方法。通过这种方法可以减少待识别特征和模型之间的不匹配使得识别性能得以提高。
　　1 噪音对孤立词语音数据的影响
　　加法性噪音和乘法性噪音是影响语音信号最普通的两种噪音类型。例如：加法性噪音包含背景噪音，交通噪音，等等。乘法性噪音主要是传输过程中产生的信道失真。例如麦克风自身的噪音，房间的反射噪音等等。干净的语音信号首先被信道失真所干扰，进一步被加法性噪音干扰。
　　包含噪音的频谱可以用如下公式描述：
　　噪音干扰在增益部分和直流分量部分的影响是不同的，如图1所示：在孤立词识别中，很多实验表明使用DRA方法对加法性噪音和乘法性噪音都具有很好的性能。
　　图2展示了噪音影响在孤立词中的性能。在图2中，有两条不同的特征曲线，曲线表示了干净语音和10db信噪比的噪音特征在第二项MFCC中。者两条曲线来源于同一个语音数据。
　　然而，由于噪音严重的影响，噪音下的MFCC特征曲线的动态范围要小于干净语音的MFCC特征曲线的动态范围。如果使用干净语音特征建立HMM训练模型，能够获得理想的模型并在同等条件下获得更高的识别率。但是对噪音下的语音识别，由于上述的原因，自动语音识别系统无法在任何噪音下获得正确的识别结果。虽然DRA归一化方法能够在孤立词识别中获得较好的识别结果，但直接用于连续语音识别并不是特别的理想。
　　图2展示了在孤立词中不匹配的峰值。DRA归一化方法算法使用最大值的方法将频谱系数范围标准化到一个统一的范围。在每个维度，DRA方法将干净或者带噪语音频谱系数的动态范围调整到同一个标准范围中。但在孤立词识别中，特征曲线中的峰值是有限的。归一化方法非常适用于孤立词识别。而连续语音识别特征曲线的峰值要远多于孤立词识别，归一化方法并不直接适用。
　　2 噪音对连续语音数据的影响
　　对连续语音特征曲线来说，不匹配的峰值随着语音特征曲线的增长而增加，语音特征曲线的动态范围随着噪音的增加而减少。因此简单的归一化算法不能有效适用连续语音识别。
　　我们的目标是缩小待识别噪音特征曲线与干净的语音特征曲线之间的差异。经过噪音鲁棒性方法和DRA方法，语音信号中的直流分量的不同得以减少，特征曲线中不匹配的峰值也得以减少。
　　基于前面提到的孤立词识别的归一化方法，我们可以假设噪音没有改变原有的特征曲线的统计顺序，也就是在语音特征曲线上会存在很多峰值，如第一高峰值，第二高峰值，等等。在连续语音特征中，全局的统计信息的匹配就在整个训练数据集中显得比较重要。一般来说，这些特征曲线上的峰值信息代表了元音的语音特征。随着训练量的增加，这些峰值信息一般会集中到相对稳定的区域。但实际上，噪音通常会改变特征曲线的统计顺序。如果能恢复部分特征曲线上统计信息的顺序，就能增加这些峰值的匹配几率。
　　虽然通过上述的图示可以看出通过归一化方法可以增加干净语音特征曲线和带噪语音特征曲线的拟合程度，连续语音特征曲线中存在较多的峰值，带噪语音特征曲线会改变一些峰值的统计信息，因此把归一化方法简单的使用到连续语音识别中无法达到如图的拟合程度。提出的算法可以尽最大可能恢复带噪语音的峰值统计信息。
　　使用DRA归一化能提高特征曲线的峰值匹配概率。孤立词特征曲线通常不含静音部分，但在连续语音中，语音之间存在由于思考或者换气产生的静音，在此部分仍然使用归一化方法在过渡位置会放大只有噪音的信号特征。这就导致了连续语音特征在此部分无法匹配。
　　根据上面的讨论，可以通过下面两步对特征曲线进行处理。
　　第一步：从连续语音数据中提取所有的短句子。
　　估计无音部分。连续语音包含许多无音部分和只有噪音的部分，因为这些部分不适合使用DRA。在下一步中消除连续语音特征曲线中各个动态范围的不平衡性。
　　第二步：把选取出来的短句子分成更小的片段，在每个片段中使用归一化方法。
　　如果片段的长度接近短句长度，导致识别结果与传统DRA方法接近，如果片段的长度特别小，则导致识别精度急剧下降。根据实验得到经验数据当片段长度为80帧时，识别精度最高。不同片段长度得到的识别结果如下图：
　　3 小结
　　在训练过程中使用大量的数据可以使各个音素的模型逐渐集中在某一个范围。对于测试数据来说，音素的范围很有可能与模型不在同一个范围内，待识别音素是有限的，不可知的。
　　使用噪音鲁棒性方法和DRA在建立区分度较高模型方法，这些鲁棒性方法在发音较短的孤立词识别中展现了良好的识别性能，并说明了这些方法无法直接在连续语音识别中的原因。
　　虽然在带噪语音特征曲线和干净语音特征曲线仍然有不匹配的峰值，需要指出的是，对比使用传统的DRA算法，减少了不匹配的峰值。由此可以看出，使用提出的算法调整带噪语音特征曲线可以增加峰值部分的匹配几率。使用该算法在干净和噪音环境下可以提高整体的识别性能。特别指出的是，提出的算法大幅提高了在噪音环境下的连续语音识别性能，根本原因就是相对于传统的DRA，选择了更合适的调整值，适当的放大了峰值。该算法在语音频谱系数的对数系数特征里也适用。
　　参考文献：
　　[1]张雄伟等编著.现代语音处理技术及应用[M].机械工业出版社，2003.
　　[2]王欣，罗代升，王正勇.基于改进谱减算法的语音增强研究[J].成都信息工程学院学报，2007（02）.
　　[3]孔浩，杨勇，王国胤.基于多分类器融合的语音识别方法研究[J].重庆邮电大学学报（自然科学版），2011（04）.

其他文献

辽宁省当前主要杨树优良新品种

近些年来，辽宁省杨树研究所在杨树良种选育研究中，通过杂交、引各等手段，相继培育出荷兰３９３０杨、辽宁杨等１０余种更新换代优良品种（无性系），在生产造林中广泛应用。文章着重介绍了这些良种

期刊

杨树优良品种特征特性欧美杨107辽河杨Liaoning Provinceintroductioncrossbreedstrainclonep

章古台沙地日本落叶松引种初步研究

本文通过章古台地区引种日本落叶松，其生长性状与当地主要造林树种樟子松，与清原海洋林场，湾甸子实验林场日本落叶松进行对比分析，证明日本落叶松适应性强，生长快，可在章古台地区良

期刊

章古台沙地日本落叶松引种

灰色关联度分析法在引种区划中应用的探讨

根据树种的生物学特性、影响树木生长的主要气候因子，利用层次分析法确定各因子对树木生长影响的权重，然后，分别计算引种区域内各地与种源产地之间的气候灰色关联度，将山西省有关

期刊

造林引种区划层次分析法灰色关联度

2015年第一季度会长联席会纪要

2015年3月27日上午，协会第一季度会长联席会在石家庄佐美庄园召开。会长李大北、常务副会长胡志斌、秘书长聂永生和副会长庄伟、卜海燕、吕宪松、吴异非、杨轶、左秀芹等及秘

期刊

农业科技副会长河北石家庄秘书长秘书处副主席协会

亚太泵业集团注重技术创新致力新品开发

江苏亚太泵业集团公司注重技术创新,大力开发高科技含量、高市场容量、高附加值的新产品,从而增强了产品的市场竞争力,成功地闯出了一条"科技兴厂”之路,企业取得了长足的发

期刊

冀中南冬小麦节水稳产关键技术

冀中南地区是典型的地下水资源匮乏、地下水严重超采的区域之一，而农业消耗用水占整个用水的60%~70%，小麦用水又占农业用水的70%左右，一般年份，小麦亩灌溉用水量150 m3以上，为探索

期刊

冀中南地区冬小麦节水稳产技术灌溉用水量水资源匮乏栽培试验

Scanning cathodoluminescence microscopy： applications in semiconductor and metallic nanostructures

期刊

大力推进设备更新和技术创新—热处理行业“十五”市场预测

期刊

热处理行业“十五”期间市场预测设备更新技术创新

不同药剂处理盖杨扦插试验

用ＡＢＴ生根粉２号和根宝２号、３号不同浓度药液处理盖杨插穗，扦插试验结果表明，经ＡＢＴ生根粉２号１００ｍｇ／ｋｇ药液浸泡２４ｈ的插穗，其成活率达９６％，比对照提高３２％，是一种经济有效的处理方法适宜在生产中应用。

期刊

盖杨ABT生根粉扦插杨树Populus gaixianensis ABTGENBAO cutting

食品安全领域检察民事公益诉讼惩罚性赔偿机制研究

检察机关提起食品安全领域民事公益诉讼时,相关法律赋予消费者的诉讼请求,其皆可以提出,包括惩罚性赔偿。惩罚性赔偿的着眼点是惩罚,落脚点是赔偿,其与刑事罚金、行政罚款的

期刊

食品安全民事公益诉讼检察机关惩罚性赔偿

基于HTK的日语连续语音识别系统的建立与研究

与本文相关的学术论文