基于统计模型的语音活动检测与语音增强研究

来源 :中山大学 | 被引量 : 0次 | 上传用户:sesame_1975
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
近年来,日常生活中的移动电话,数字助听器,车载语音系统等数字语音处理设备的大量出现和使用引起人们对语音增强领域研究重视。同时复杂噪声环境下这些语音设备性能的急剧下降也使得人们对其抗噪声能力提出更高的要求。目前,该领域仍然存在着许多有待解决的关键问题。此外,VoIP的普及,使得人们可以方便地、低成本地进行语音通信。本文主要从语音活动检测、频域语音增强和VoIP多媒体会议混音处理三方面展开研究,内容包括以下四点: (1)依据噪声功率谱密度分布的拖尾特性,用Rayleigh模型近似噪声功率谱密度数据的统计分布,导出基于Rayleigh模型的新判决阈值更新表达式,并提出一种基于该判决阈值更新准则的语音活动检测算法。由于Rayleigh分布下虚警概率具有解析表达式,从而避免了计算逆互补误差函数,降低了算法的复杂度。在非平稳噪声环境下,其正确检测率高于Davis提出的基于Gaussian模型的算法。 (2)对上面的语音活动检测方案,提出结合倒谱频谱估计的语音活动检测算法。该算法针对原Davis的语音活动检测算法中使用的Welch频谱估计算法复杂度较大的缺点,给出一种更节省计算资源的语音活动检测算法。 (3)提出一种基于对数Rayleigh混合模型的语音增强算法,导出了基于对数Rayleigh混合模型的最小最大MMSE估计器,该估计器比基于Gaussian混合模型的估计器有更高的输出分段信噪比。 (4)提出一种适用于集中式多媒体音频会议系统的实时同步混音转发算法。该算法通过设置多个循环混音缓冲区,并对其实施同步控制来实现音频数据的混音、转发功能,并利用反映操作系统调度情况的声卡缓冲区数据长度确定每次混音处理的数据长度,减轻操作系统调度对混音的影响。实验表明此算法是可行和稳定的。
其他文献
数字硬盘录像机(DVR)是集硬盘录像、智能回放检索等多种功能于一体的智能数字监控录像系统。具有画面分割器、视频切换器、磁带录影机、控制器、远程传输器的全部功能,可进行
相控阵已经广泛应用在现代通信、雷达和导航等系统中。不同于相控阵,频控阵相邻阵元的载波频率存在较小的频率增量,因此频控阵波束具有距离依赖性,可以抑制距离依赖性干扰和
在宽带高速无线通信系统中,OFDM是一种具有广阔应用前景的多载波数据通信技术。它具有频率利用率高、消除码间干扰和抗衰落能力强等优点。然而,传统的OFDM也存在峰均比(PAPRs)
本文针对无线传感器网络目标信号检测的应用背景,主要分析了无线传感器网络的分布式检测性能,并详细介绍了几种分布式检测的方法,包括:并行拓扑结构下通过神经网络进行信号分
移动自组织网络在无线通信领域得到了越来越广泛的应用,但其固有特性使其容易受到各种各样的入侵,对其安全性研究是非常有价值的。入侵检测技术作为一种主动式安全防护机制,
无线传感器网络(Wireless Sensor Network,WSN)由大量具有无线通信、传感及数据处理功能的传感器节点组成,其主要用途是通过网络节点间的协作,采集、处理和传输数据,对网络覆
万兆以太网技术是最前沿的网络技术之一。它不仅速度上比千兆位以太网提高了10倍,而且系统兼容性更强、升级更容易、性能更稳定、传输距离更长,并且价格低廉。因此,其应用范
无线移动自组织网络(Ad Hoc)是建立在特定场合下的,由一组带有无线收发的移动终端构成的一个临时性系统,可以通过无线通信连接构成任意的网络拓扑结构。甚高频(VHF)通信系统广
近年来,随着互联网的迅猛发展,各种针对信息系统的攻击越来越普遍,并且变得更加难以防范。其攻击方式从传统的本地病毒攻击逐渐演变成分布式、高速传播的网络攻击行为。现有
电影是见证一个国家发展的重要资源也是非常宝贵的艺术文化遗产,由于年代久远、不好的存储环境或不合理的播放等原因造成电影胶片的不同程度的降质,如退色、画面闪烁、斑点、