论文部分内容阅读
随着社会的发展,生物识别技术的应用越来越普遍。声纹识别、指纹识别、虹膜识别、人脸识别等活体检测技术产品相继面世并受到人们的追捧。此类技术的发展不仅在一些领域内提高了相关人员的工作效率,还大大的满足了人们对信息安全的要求。其中,声纹识别,又称说话人识别技术,根据其使用的范围不同分为说话人辨认和说话人确认两类。说话人识别技术以其获取方便、拾音设备低廉、支持非现场身份确认等优势,已逐步应用于金融、社保、普通生活等领域。但随着便携式、高保真录音设备的普及,合法用户的密语在请求进入识别系统时极易被别有用心的人偷录成功。一旦攻击者获得了来自用户的语音,则其利用回放语音进入说话人识别系统便有了可能。为改善识别系统中此类安全问题,则必须防止攻击者利用回放语音的成功闯入。目前,国内外研究团队已提出部分针对回放语音的检测算法。然而现有算法却忽视了实际攻击时的各种可能性,如偷录设备、回放设备的多样性,仅仅涉及单一设备。所以本文对目前已有的回放语音检测的关键技术及研究成果进行总结归纳,并针对上述存在问题以及顺应科技发展的多样性,开展相关研究工作,达到为相关技术提供回放语音检测的算法的目的。本文主要在回放语音攻击性能及其概念介绍、数据库的构建、回放语音的检测算法3个方面开展了研究工作:1.本文将回放语音分别在GMM-UBM系统、OPPO find7和WeChat平台上进行了测试实验。由结果可知,使用便携式录音设备极易攻入此类已推广上市的声纹识别系统;此实验结果进一步证明了研究回放语音的重要性与必要性。除此之外,本文还在波形图、语谱图两方面分别对回放语音进行了阐述,已达到初步了解回放语音,并为本文提出相应的回放语音检测算法做铺垫。2.一方面至今为止已存在的相关数据库尚未进入成熟的阶段。另一重要因素,则是为改善现有文献在样本设置上的局限性,根据本文研究需要,所需数据库将涉及多种不同的偷录设备、回放设备、采集设备。所以在实际研究过程中,我们花费大量的时间与精力用于数据库的构建。所构建数据库包含了两种采集设备、三种回放设备、五种偷录设备,共形成了2种原始语音和30种不同来源的回放语音。3.本文在针对回放语音检测算法方面,主要根据频率分布与编码参数的变化提出了两类统计特征。本文通过深入分析回放语音的产生过程,认为回放语音由于经过偷录设备及回放设备将不可避免造成编码失真与放大失真,使得回放语音携带相关的设备信息。通过分析发现,待测语音经过MP3编码后,原始语音与回放语音在长窗比例因子这一参数上存在一定的差异。因此,提出了基于长窗比例因子的的检测算法。实验结果表明,本算法能够较好地区分回放语音与原始语音。在一定的检测条件下,码率为64kbps、分类器使用Libsvm时,综合分类达到了99%以上。根据回放语音与原始语音在不同频率上的差异,提出了基于信息量分布的检测算法。经实验结果表明,本算法同样能够很好地实现对原始语音与回放语音的分类,在傅里叶变换点数为512时,检测结果达到99%以上;将该算法加载到GMM-UBM系统上,大大提高了系统抵抗回放语音攻击的能力。