基于LSTM网络和GMM的语音检测研究

来源 :山东师范大学 | 被引量 : 0次 | 上传用户:fymgxlj
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
哭声是婴儿特有的语言,是婴儿传递信息的一种重要方式,婴儿的哭声中蕴含着丰富的心理和生理需求信息,对婴儿哭声的研究可以帮助人们理解哭声的含义,实现对婴儿的更好的看护。本文的课题来源于某公司对婴儿哭声的分析需求,公司拟采集大量的婴儿哭声数据进行婴儿哭声分析,但是由于采集的哭声数据中常伴有成人的语音,出于对隐私保护的考虑,公司需将婴儿哭声音频流中的成人语音检测出来并有效去除。基于此,本文根据公司的需求,开展了基于LSTM网络、GMM模型和基于LSTM-GMM-RNN模型的语音检测研究,该研究分别基于LSTM网络、GMM模型和LSTM-GMM-RNN模型从音频流中识别出成人语音,其对用户隐私的保护具有重大的实际意义。本文以婴儿哭声分析为研究背景,围绕解决婴儿哭声数据采集过程中的隐私保护问题,开展成人语音检测研究,具体的研究工作包括:1)通过时域波形和语谱图分析了公司的婴儿哭声和成人语音数据库,通过听公司提供的掺杂有成人语音的婴儿哭声音频数据,总结了婴儿哭声和成人语音之间的信号差异,分析了有利于区分婴儿哭声和成人语音的音频特征。2)提取了MFCC、MFCC+energy、MFCC+pitch、PLP、PLP+energy共5组特征作为音频特征,实验搭建了包含2层LSTM网络结构的深度神经网络,以此神经网络为分类模型,分别基于上述每一组特征进行语音检测实验。3)基于GMM模型构造了三组不同的语音检测方案:基于婴儿哭声GMM模型的语音检测、基于成人语音GMM模型的语音检测、结合婴儿哭声GMM模型和成人语音GMM模型的语音检测。4)为了进一步提高语音检测准确率,提出通过RNN网络联合LSTM网络的识别结果和GMM模型的识别结果进行分类识别,提出了基于LSTM-GMM-RNN模型的语音检测算法,与基于LSTM网络的检测算法和基于GMM模型的检测算法相比,该算法的语音检测准确率有大幅度提高。本文提出的基于LSTM网络的语音检测算法、基于GMM模型的语音检测算法,以及基于LSTM-GMM-RNN的语音检测算法能很好地检测出婴儿哭声音频流中掺杂的成人语音,在去除成人语音后能很好地实现数据采集过程中对用户隐私的保护。
其他文献
<正>随着经济活动方式和经营环境的变化,国际货代从八、九十年代的繁荣和"暴利"正逐步走向一个分化和转型的时期。许多船公司其自身已基本具备货代功能,对公共代理业的依赖性
会议
目前,ASHRAE 55-1992[1]和ISO 7730[1]是世界上普遍采用的评价和预测室内环境热舒适程度的标准.ASHRAE 55-1992标准中给出了至少满足80%居住者的舒适区,并将热舒适定义为"人
<正>口香糖能够清新口气、缓解压力,更有报道称,嚼口香糖还有增强记忆、帮助集中精神、协助戒烟等益处。口香糖中木糖醇的含量越高,防龋效果越好。坚持咀嚼木糖醇含量占糖分5
期刊
按照自由现金流量假说,当公司存在大量自由现金流量时,经理机会主义行为容易引发过度投资。本文以2005年上市公司数据考察我国企业是否存在过度投资以及股权结构能否抑制过度
大量的以农民工为主的农村人口流向城市,对我国养老保险制度提出了严峻挑战。经济收入低、城乡二元化社会结构、碎片化的社会保障格局等原因造成众多农民工无法享受社会养老
糖尿病周围神经病变是糖尿病(DM)常见的慢性并发症之一。笔者根据本病多有气虚血瘀的表现,以自拟黄芪逐瘀汤配合654-2、川芎嗪治疗型糖尿病合并周围神经病变50例,收到了较好
20世纪 2 0年代中期 ,鼻饲在全喉切除术后广泛应用以来 ,拔除鼻胃管的时机尚无定论。Alfonso(195 4)最先质疑全喉切除术后是否放置鼻胃管。近年来 ,有关全喉切除术后经口进食
咳嗽为耳鼻喉科的常见症状之一,但其病因复杂,病程较长,病情反复难愈。笔者拜读《温病条辩》后有感,认为岭南地处湿地,环境多湿多热,从湿热寻求咳嗽证治未尝不是一种思路。本
会议