基于统计模型的语音端点检测

来源 :上海师范大学 | 被引量 : 0次 | 上传用户:woshichuanqi007
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
语音端点检测的目的是检测出语音信号中的语音与非语音片段。在很多先进的语音处理应用的前端处理部分,比如语音识别,声纹识别和语音传输,语音端点检测都是重要的步骤。在所有语音端点检测系统中,基于能量的语音端点检测最常被使用。基于能量的语音端点检测在无噪声环境下性能较好,但是在噪声环境下性能下降较多。自适应语音端点检测与传统的基于能量的语音端点检测相比,具有很多方面的优势。然而,自适应语音端点检测中,唯一的最低能量门限不能适应不同的噪声背景。本文的第一个研究内容,提出了一种方法改进这个问题,一种基于k-means的平均能量聚类方法,可以为每个语音找到更适合的最低能量门限。此外,实验中还使用了中值滤波,以平滑短时噪音产生的干扰。在NIST SRE2006说话人测评(SRE)数据上的实验表明,我们提出的方法比传统基于能量的VAD和自适应VAD均能获得更好的性能。基于深度神经网络的语音端点检测方法由于性能显著优于其他方法,成为近期的研究焦点。本文的第二个研究内容,以一种基于深度神经网络的语音端点检测方法为基础,针对其在低信噪比环境中表现不佳的问题和易受短时噪音干扰的问题,分别使用了谱减法语音增强和自适应中值滤波的方法做了改进。另外,本实验提出一种监督学习规则,类比于人类学习先易后难的原则对神经网络进行训练,显著加快了神经网络的收敛速度。在AURORA2数据库上的实验结果表明,相比于基线系统,改进后的方法不仅加速了训练速度,而且还取得了31.12%的相对性能提升。
其他文献
为了和WiMAX,Wi-Fi等新兴的无线宽带技术竞争,国际标准化组织3GPP在2004年底启动了LTE技术的标准化工作。以OFDM和MIMO为核心技术的LTE,不仅增强了3G的空中接入技术,具有更高的用
家庭基站(Femtocell)是根据近年来宽带移动化发展的趋势而得到广泛研究的一种超小型基站系统。主要是为家庭住宅和企业办公等室内场景的用户提供更好的服务质量。在由宏蜂窝
智能控制是当今控制领域中的热门研究内容,而在智能控制领域中,模糊控制系统占有重要地位。由于传统数学方法面向对象为精确数学模型,而自然界中实际控制问题有时并不能用传
短波通信具有机动灵活、抗毁性好等优点,一直是军事通信大力发展的通信技术。但由于传统短波通信功能单一、可扩展性差,已难以适应现代通信的数字化、网络化、宽带化等需求。
认知无线电技术实现了频谱资源的动态分配,提高了频谱资源的利用率,而准确高效的频谱感知是认知无线电的核心环节。快速高性能的频谱感知算法研究已经成为了一个亟待解决的问
  近年来,汽车工业已经成为世界的支柱产业,汽车在日常生活和工作中起的作用也越来越突出,车载导航系统正是在这样的背景下发展起来的一门新型技术,虽然功能繁多,但性能还
博弈论是一种研究自私个体间竞争以及合作问题的工具,分为非合作和合作博弈。非合作博弈的解“纳什均衡(NE:Nash Equilibrium)”,给出了自私个体在最大化自己效益的竞争过程
以电磁波为载体,雷达对感兴趣目标进行探测时,具有全天时、全天候、探测距离远、受环境依赖程度低等优势,有效的弥补了可见光、红外等光学手段对目标和环境信息感知能力的缺
主动配电网(Active Distribution Network,ADN)是在主配网的协同控制的基础上,能够通过分布式发电、储能技术以及需求侧响应等调控手段,针对电力系统实际运行状态进行自适应调节源、网、荷的配电网。ADN架构内的能量调控主要表现在配电网对大规模分布式能源(Distributed Energy Resource,DER)的接纳和利用进行主动调节和控制,而这一过程离不开高效实用的信
长非编码RNA(long non-coding RNA,lncRNA)是一类转录本长度大于200核酸的非编码RNA。随着高通量测序技术的广泛应用,已在生物体内发现大量lncRNA,其中有相当一部分的lncRNA