论文部分内容阅读
本文的主要研究工作在于利用数字语音处理技术对谎言语音信号进行分析与识别分类。将数字信号处理手段用于分析语音信号中所包含的丰富信息(比如语义、身份、情绪等),是计算机信息处理技术发展过程中所获得的重要成果。在这些成果基础之上,近年来开展的基于语音信号处理技术的心理生理计算研究是融合了心理生理学、信息与计算机科学等诸多学科领域的综合性课题。谎言检测是心理生理信息计算中的重要分支,而目前主流的测谎手段以脑电信号处理(P300信号分析)与脑成像分析(大脑的功能磁共振成像,Functional Magnetic Resonance Imaging,FMRI)为主,这些手段以脑部信息记忆机理等生理学研究成果为支撑,在一定程度上获得了较好的效果。但此类方法对于某些缺少记忆信息的应用将会失效,且更为重要的一点是此类测谎方法使用过程较为繁琐,且需要被测者一定程度的配合,导致在很多应用场合的不适用。目前,脑电与脑成像测谎的结果只能在刑侦与司法领域作为参考依据。近年来,视频分析理论的成熟推动了基于面部表情分析说谎状态识别研究,概率图模型理论的发展也为自然语言分析谎言检测提供了更多的发展空间,而语言声学、听觉语音学、语言生理学研究的进一步深入,使得基于语音处理的谎言检测再次受到各国研究学者的重视。心理压力评估(Psychological Stress Evaluators,PSE),语音紧张度分析(Voice Stress Analyzers,VSA)和多层次语音分析技术(Layered Voice Analysis,LVA)等研究工作在数字信号处理理论的发展下有了新的意义,但是大部分谎言检测系统的正确率都只在60%-70%之间。随着各方面工作的深入,阻碍语音测谎技术发展的桎梏也逐渐显现:1、没有针对谎言检测的语音特征参数,导致原本就极为微弱的谎言信息无法被突出;2、识别模型缺乏创新,使得人在说谎时的时间动态特性没有充分考虑。鉴于谎言语音识别中尚存在的诸多问题,本文开展了关于谎言语音检测可计算性、匹配特征表达及时序建模等研究工作,具体内容如下:1、统计各类特征参数在正常语音和谎言中的分布,提出分布差异度函数,并证明了谎言信息在语音信号中的存在性,也表明基于语音测谎的可行性。鉴于现有相关研究成果中关于语音测谎可行性计算的缺失,本文首先采用分布统计手段对多种语音信号特征进行分析,并提出分布差异度函数,量化计算正常语音与谎言语音在特征分布上的差异,并由信息量估计证明了谎言信息在语音信号中的存在性,为基于语音技术的谎言检测提供可行性依据。2、提出基于语音信号听觉频段瞬时频率特征的谎言识别方法,突出了不同频段信号的频率细节特征,增强了说谎状态下特征参数关于语音异变的敏感度,从而提高谎言检测正确率。人在说谎时由于情绪紧张会导致发音器官变化,从而影响语音表达,这是语音测谎的主要生理依据。相关研究成果表明,基于听觉机理的声信号处理方法适合用于处理此类问题。本课题利用听觉Gammatone滤波器组对语音信号进行分解,提出利用格型迭代算法估计各个频段信号的瞬时频率,通过瞬时频率的变化表征人体发音器官在正常说话与说谎状态下的差异,强化谎言信息在语音信号中的比重,并利用数学模型予以分类识别。结果表明听觉瞬时频率特征的引入使得个体谎言语音检测正确率提高2%-10%左右。3、提出分数阶Mel倒谱系数(Fractional Mel Cepstral Coefficient,Fr CC)为特征参数的谎言语音检测方法,在保留语音特征稳健性的基础上强化了说话人的个性特征,进一步提高个体谎言识别率。由于谎言信息极为微弱,故检测参数既要对谎言信息有足够的敏感度,同时又要具有较高的鲁棒性。而本课题提出的Fr CC参数,利用分数阶分析方法对MFCC参数进行了优化,既保留了MFCC参数对语音信息表达的稳健性能,也体现了语音信号的相位信息,使得说话人的个性特征能够被保留,说谎状态也更容易被发现。实验结果表明Fr CC参数的引入,对于提高谎言语音的检测正确率起到了明显的促进作用。4、建立基于多尺度条件随机场(Multi-scale Conditional Random Fields,MCRF)的谎言检测时序模型,实现多层特征抽象到心理生理状态映射机制,使得谎言检测系统的性能得到显著提高。MCRF实现了从语音信号的声学特征提取,到韵律层信息抽象,再到心理生理层状态链估计的一体化模型,该模型拓展了语音信号的全局上下文相关信息,弥补了语音信号中谎言信息量较为微弱的缺点,实现了谎言语音信号的时序建模工作,最终的平均识别正确率达到75%以上。这些工作可以作为基于语音处理的谎言检测的参数和模型方面的初步研究成果,同时也为数字信号处理领域的人体心理生理计算研究提供一定的基础。