论文部分内容阅读
说话人性别和年龄识别是自然语言处理技术的一个子领域,是一项具有挑战性的任务,在人机交互系统中通过说话人性别和年龄特征识别,可以实现为特定对象提供个性化服务。随着人机交互系统的深入研究,用户体验的要求越来越高,该技术逐渐在自动语音查询信息、无人超市、健康护理、娱乐等领域得到广泛应用,并且有望在未来持续增长。
针对语音信号特征提取和建模算法容易受环境噪声影响,性别和年龄识别准确率偏低,年龄识别易出现信息缺失,不能完整表示说话人属性信息等问题,本文提出了语谱图特征结合DeneseNet网络来进行与文本无关的说话人性别和年龄识别的研究思路,并完成以下主要工作:(1)提出一种新型语谱图特征生成算法,通过先分大帧再分小帧的方法增加语谱图生成数量,使得语谱图包含更全面的说话人信息,且通过算法提取语音信号背景噪声和无声段生成语谱图,作为系统特征输入图,经测试,以上算法在系统抗噪能力和准确性方面都得到了有效提升;(2)基于DeneseNet网络结构构建了性别和年龄的语音识别算法模型,通过对激励函数和分类函数的优化匹配,改善了小数据集上存在的过拟合问题,深度网络梯度消失问题,加强了跨层深度卷积的效果,降低了对于特征图数量的需求,在节约系统计算资源的同时,很好的提高了系统识别率;(3)确定了语谱图帧长、学习率、网络结构参数、迭代次数等对系统识别率的影响规律,并完成参数的最优配置。
基于以上研究结果完成了在线说话人识别系统设计,基于python3.10与Tensorfolw1.14.0实验平台,经采用不同语音库进行检验,说话人性别识别率总体达到了99%,年龄识别率总体达到88.6%,性别和年龄同时识别的准确率达到90%,单个说话人性别和年龄识别可在两秒内完成。
针对语音信号特征提取和建模算法容易受环境噪声影响,性别和年龄识别准确率偏低,年龄识别易出现信息缺失,不能完整表示说话人属性信息等问题,本文提出了语谱图特征结合DeneseNet网络来进行与文本无关的说话人性别和年龄识别的研究思路,并完成以下主要工作:(1)提出一种新型语谱图特征生成算法,通过先分大帧再分小帧的方法增加语谱图生成数量,使得语谱图包含更全面的说话人信息,且通过算法提取语音信号背景噪声和无声段生成语谱图,作为系统特征输入图,经测试,以上算法在系统抗噪能力和准确性方面都得到了有效提升;(2)基于DeneseNet网络结构构建了性别和年龄的语音识别算法模型,通过对激励函数和分类函数的优化匹配,改善了小数据集上存在的过拟合问题,深度网络梯度消失问题,加强了跨层深度卷积的效果,降低了对于特征图数量的需求,在节约系统计算资源的同时,很好的提高了系统识别率;(3)确定了语谱图帧长、学习率、网络结构参数、迭代次数等对系统识别率的影响规律,并完成参数的最优配置。
基于以上研究结果完成了在线说话人识别系统设计,基于python3.10与Tensorfolw1.14.0实验平台,经采用不同语音库进行检验,说话人性别识别率总体达到了99%,年龄识别率总体达到88.6%,性别和年龄同时识别的准确率达到90%,单个说话人性别和年龄识别可在两秒内完成。