论文部分内容阅读
随着科学的发展和技术的进步,人工智能成为最热门的科技话题之一,越来越多的人工智能产品从理论研究走向实际应用。家庭生活的各个角落也都出现了人工智能的踪迹,从手机到电视,从音箱到冰箱,从扫地机器人到服务机器人,人们的生活发生了翻天覆地的变化。语音交互作为一种重要的人机交互形式,常被用到智能家居中。为了使智能家居产品实现更加自然、高效的人机交互,让其能够感受和分辨人的情感,家庭环境中语音情感识别的实现具有十分重要的意义。本文旨在通过对家庭环境下的语音情感识别进行研究,促进智能家居产品朝着更加人性化的方向发展。
本文充分研究了语音情感识别的关键技术并分析了家庭环境中的语音特点,将使用传统机器学习算法与深度学习算法实现家庭环境下的语音情感识别,主要研究如下:
首先,优化MMSE-LSA前端语音增强算法:使用噪声鲁棒的子带能熵比进行语音端点检测,更好地区分语音段和非语音段,建立非语音段的初始噪声模型;采用时间递归平均的噪声谱估计算法,创新性地采用后验信噪比的估计值计算说话人语音存在的概率并对不同频段的谐波使用不同的阈值。语音情感分类器选用的是机器学习中表现突出的支持向量机算法,实验证明优化后的MMSE-LSA算法整体上提高了语音质量和语音情感识别的准确率。
然后,考虑到深度学习优秀的特征提取与分类能力,提出了适用于家庭环境语音情感识别的卷积神经网络模型,并探讨了不同数据增强策略对语音情感识别结果的影响。通过分析卷积神经网络在图像领域的应用,本文提出了三种不同 Attention 策略的卷积神经网络模型,结果表明时间维度的 Attention 提高了卷积神经网络在家庭环境下语音情感识别的准确率。
最后,针对非特定人语音情感识别准确率不高的问题,本文引入了说话人识别模块,把非特定人语音情感识别转化为特定人语音情感识别并设计实现了家庭环境语音情感识别软件。该软件采用简单的C/S架构,使用python语言开发,为用户提供了简单、高效的图形交互界面。通过测试,本文实现的家庭环境语音情感识别软件具有良好的可交互性。
本文充分研究了语音情感识别的关键技术并分析了家庭环境中的语音特点,将使用传统机器学习算法与深度学习算法实现家庭环境下的语音情感识别,主要研究如下:
首先,优化MMSE-LSA前端语音增强算法:使用噪声鲁棒的子带能熵比进行语音端点检测,更好地区分语音段和非语音段,建立非语音段的初始噪声模型;采用时间递归平均的噪声谱估计算法,创新性地采用后验信噪比的估计值计算说话人语音存在的概率并对不同频段的谐波使用不同的阈值。语音情感分类器选用的是机器学习中表现突出的支持向量机算法,实验证明优化后的MMSE-LSA算法整体上提高了语音质量和语音情感识别的准确率。
然后,考虑到深度学习优秀的特征提取与分类能力,提出了适用于家庭环境语音情感识别的卷积神经网络模型,并探讨了不同数据增强策略对语音情感识别结果的影响。通过分析卷积神经网络在图像领域的应用,本文提出了三种不同 Attention 策略的卷积神经网络模型,结果表明时间维度的 Attention 提高了卷积神经网络在家庭环境下语音情感识别的准确率。
最后,针对非特定人语音情感识别准确率不高的问题,本文引入了说话人识别模块,把非特定人语音情感识别转化为特定人语音情感识别并设计实现了家庭环境语音情感识别软件。该软件采用简单的C/S架构,使用python语言开发,为用户提供了简单、高效的图形交互界面。通过测试,本文实现的家庭环境语音情感识别软件具有良好的可交互性。