论文部分内容阅读
关键词识别是从一段连续的语音流当中识别出特定的一个或若干个关键词的技术,是连续语音识别的一个分支。关键词识别技术相对于连续语音识别来说具有耗时短、准确率高等特点,在很多领域具有广泛的应用前景,越来越受到人们的重视。本文主要面向汉语小词汇量的基于隐马尔可夫模型的关键词技术。由于关键词识别不受说话人及说话方式的限制,往往在一段连续的语音流中出现若干与关键词发音相近的易混淆的非关键词,或者关键词之间的发音相似,使系统的识别率下降得很快。针对这样的问题,本文采用自行录制的语音,从对语音信号的预处理开始,采用短时平均能量法和短时平均幅度法对语音信号的始点与末点进行粗判,去除语音信号的无声段。提取10维MFCC倒谱系数及其一阶差分参数作为特征矢量,对关键词和词表外词采用连续隐马尔可夫模型进行建模。训练阶段,采用Baum-Welch算法进行重估迭代。在关键词检出阶段,采用帧同步Viterbi搜索算法,得到若干候选关键词。在关键词确认阶段,为了避免与关键词发音相似的非关键词取代真正的关键词及因为反词模型的选取不够完善而引起的误识,在确认之前采用模糊c均值聚类的方法,引入隶属度原则,以关键词模型和反词模型为聚类中心,对候选关键词进行聚类,根据隶属矩阵确认候选关键词隶属于哪一类,将聚类在反词模型周围的候选拒识掉,在确认阶段,采用聚类后得到的更具代表性的反词模型,应用似然准则对关键词进行最后的确认。另外,还对关键词混淆网络进行了研究与实验,并作为与引入模糊理论的关键词识别的对比实验。实验表明,引入模糊聚类后,整个系统的识别率有了明显的提高,说明了算法的有效性。针对聚类过程中产生远离聚类中心的野点的问题,使用了一种改进的模糊c均值聚类方法,使聚类的效果更好更准确。