论文部分内容阅读
哭声是婴儿特有的语言,是婴儿传递信息的一种重要方式,婴儿的哭声中蕴含着丰富的心理和生理需求信息,对婴儿哭声的研究可以帮助人们理解哭声的含义,实现对婴儿的更好的看护。本文的课题来源于某公司对婴儿哭声的分析需求,公司拟采集大量的婴儿哭声数据进行婴儿哭声分析,但是由于采集的哭声数据中常伴有成人的语音,出于对隐私保护的考虑,公司需将婴儿哭声音频流中的成人语音检测出来并有效去除。基于此,本文根据公司的需求,开展了基于LSTM网络、GMM模型和基于LSTM-GMM-RNN模型的语音检测研究,该研究分别基于LSTM网络、GMM模型和LSTM-GMM-RNN模型从音频流中识别出成人语音,其对用户隐私的保护具有重大的实际意义。本文以婴儿哭声分析为研究背景,围绕解决婴儿哭声数据采集过程中的隐私保护问题,开展成人语音检测研究,具体的研究工作包括:1)通过时域波形和语谱图分析了公司的婴儿哭声和成人语音数据库,通过听公司提供的掺杂有成人语音的婴儿哭声音频数据,总结了婴儿哭声和成人语音之间的信号差异,分析了有利于区分婴儿哭声和成人语音的音频特征。2)提取了MFCC、MFCC+energy、MFCC+pitch、PLP、PLP+energy共5组特征作为音频特征,实验搭建了包含2层LSTM网络结构的深度神经网络,以此神经网络为分类模型,分别基于上述每一组特征进行语音检测实验。3)基于GMM模型构造了三组不同的语音检测方案:基于婴儿哭声GMM模型的语音检测、基于成人语音GMM模型的语音检测、结合婴儿哭声GMM模型和成人语音GMM模型的语音检测。4)为了进一步提高语音检测准确率,提出通过RNN网络联合LSTM网络的识别结果和GMM模型的识别结果进行分类识别,提出了基于LSTM-GMM-RNN模型的语音检测算法,与基于LSTM网络的检测算法和基于GMM模型的检测算法相比,该算法的语音检测准确率有大幅度提高。本文提出的基于LSTM网络的语音检测算法、基于GMM模型的语音检测算法,以及基于LSTM-GMM-RNN的语音检测算法能很好地检测出婴儿哭声音频流中掺杂的成人语音,在去除成人语音后能很好地实现数据采集过程中对用户隐私的保护。