论文部分内容阅读
VoIP(Voice Over Internet Protocol)是Internet应用领域的一项热门技术。VoIP具有低成本,开放性,灵活性等诸多优点,给人们的生活带来的很大的便利,同时也带来了网络犯罪等安全隐患,本课题采用语音识别技术自动识别说话人的身份帮助解决VoIP带来的安全问题。课题的主要研究内容有:千兆级网络环境下的零拷贝捕包:零拷贝的基本思想是网卡通过实际的物理内存把数据发送到用户应用程序,它的优势在于缩短数据传输的路径,减少数据拷贝次数和系统调用次数,避免系统在内核态和用户态之间频繁切换。在每个数据包的接收过程中,有效地减少CPU的参与,节约资源的利用。实验结果表明,基于零拷贝的高性能数据包捕获模块的捕获速度能到达线速。与传统的数据捕获平台相比,在捕获速率和效率上都得到了很大提高。本模块解决了常用捕包平台在千兆级高速网络环境下大量丢包的问题。VoIP网络数据包解析和恢复:VoIP的核心思想是对语音信号抽样编码,然后对其封包,通过IP网络进行传输,在接收端对接收到的数据包进行解析,恢复成语音数据。此过程用到下面几个协议:SIP协议是一个信令协议,用于创建,修改,释放会话;SDP协议是会话描述协议,用于描述会话信息和媒体信息;RTP协议是媒体流传输协议,负责对数据进行封包并实现媒体流的实时传输。在模块实现阶段,首先对VoIP的SIP/SDP协议进行解析,获得语音传输端口,语音压缩格式等信息,然后对负载语音数据的RTP数据包进行解析,最后把捕获的语音数据解码恢复成wav文件。说话人识别:说话人识别的关键在于为每个语音段建立模型,模型的优劣与特征参数的选取紧密相关,说话人识别常用的两种特征参数是:线性预测系数(LPCC)参数和梅尔倒谱系数(MFCC),前者根据发音模型建立,主要反应声道特征,后者根据人耳的听觉特性建立,利用人耳的听觉灵敏度与声音的频率成对数比例的关系。本系统采用MFCC参数建立矢量量化的模型,矢量量化方法是一种简单高效的方法,它将数据在多维空间予以整体量化,可以在丢失较少信息的前提下压缩数据量。本模块分为训练和识别两个阶段。在训练阶段,为每一个语音片段建立能够描述说话人特征的模型;在识别阶段,将待测的语音片段与参考模型进行模式匹配,选择匹配距离最小的语音片段对应的说话人为识别结果。实验表明:采用MFCC参数,利用矢量量化方法识别说话人能取得良好的效果。