论文部分内容阅读
当今社会基于人类特征提取的生物认证技术不断发展,说话人识别作为其中之一,是通过发音人的声音来辨别身份的。该生物认证技术也被叫做声纹识别,其核心内容是将语音样本信号中提取出的能代表发音人身份的信息进行处理进而实现对各类别说话人的识别。由于近年来生物认证方法在机器学习的推动下获得了巨大进展,有着广阔的发展前景和重要的研究价值,说话人识别也深受其影响,学者们逐渐从基于传统方法的说话人识别的研究方向转移到基于机器学习方法的说话人识别中来。
本文提出了一种基于灰狼算法优化的核极限学习机应用于说话人识别的方法,通过选取合适的语音样本数据集,提取数据集中的声音特征并进行降维,将降维之后的数据集置于灰狼算法优化的核极限学习机模型中进行训练。最后,将测试样本作为训练后系统的输入,进行匹配计算、结果比对。
首先,进行语音样本数据的采集,选择15名实验者在安静的环境下进行每人30~40条语音数据的采集工作,并将采集到的语音样本数据统一处理为9秒左右的WAV格式文件,为了降低说话人识别系统的复杂度,将得到的数据进行特征处理,为说话人身份的识别提供了真实的实验数据。
其次,将经过特征处理后的语音样本数据集分为两类,一类作为训练集用于说话人识别系统的学习,一类作为测试集用于比较说话人身份的识别结果。提出了极限学习机模型后,又通过公式推导和理论分析详细研究了核极限学习机模型,通过对一组随机样本数据进行识别,并且在识别中选取不同的传统机器学习方法进行了对比实验,表明了核极限学习机的训练速度和准确率远远优于传统机器学习方法。
最后,为了追求更好的识别准确率,引入了群智能优化算法中的灰狼优化算法,实验结果表明,基于灰狼算法优化的核极限学习机在识别精度和收敛速度方面优于其他群智能算法优化的网络模型,并在灰狼算法的迭代优化中寻求最优解,使一次实验中对于说话人识别的最大识别准确率为94.76%,平均识别准确率为93.17%,且各类别说话人的声音辨别准确率均在85%以上,结果说明了改进后的网络模型相比核极限机网络模型有更好的识别精度,表明了基于灰狼算法优化的核极限学习机网络模型有更好的分类特性,验证了本文所提出的基于灰狼算法优化的核极限学习机网络模型在说话人识别应用中的良好发展前景。
本文提出了一种基于灰狼算法优化的核极限学习机应用于说话人识别的方法,通过选取合适的语音样本数据集,提取数据集中的声音特征并进行降维,将降维之后的数据集置于灰狼算法优化的核极限学习机模型中进行训练。最后,将测试样本作为训练后系统的输入,进行匹配计算、结果比对。
首先,进行语音样本数据的采集,选择15名实验者在安静的环境下进行每人30~40条语音数据的采集工作,并将采集到的语音样本数据统一处理为9秒左右的WAV格式文件,为了降低说话人识别系统的复杂度,将得到的数据进行特征处理,为说话人身份的识别提供了真实的实验数据。
其次,将经过特征处理后的语音样本数据集分为两类,一类作为训练集用于说话人识别系统的学习,一类作为测试集用于比较说话人身份的识别结果。提出了极限学习机模型后,又通过公式推导和理论分析详细研究了核极限学习机模型,通过对一组随机样本数据进行识别,并且在识别中选取不同的传统机器学习方法进行了对比实验,表明了核极限学习机的训练速度和准确率远远优于传统机器学习方法。
最后,为了追求更好的识别准确率,引入了群智能优化算法中的灰狼优化算法,实验结果表明,基于灰狼算法优化的核极限学习机在识别精度和收敛速度方面优于其他群智能算法优化的网络模型,并在灰狼算法的迭代优化中寻求最优解,使一次实验中对于说话人识别的最大识别准确率为94.76%,平均识别准确率为93.17%,且各类别说话人的声音辨别准确率均在85%以上,结果说明了改进后的网络模型相比核极限机网络模型有更好的识别精度,表明了基于灰狼算法优化的核极限学习机网络模型有更好的分类特性,验证了本文所提出的基于灰狼算法优化的核极限学习机网络模型在说话人识别应用中的良好发展前景。