论文部分内容阅读
脑电(Electroencephalograph,EEG)是记录人类大脑活动的电信号,事件相关电位(Event-Related Potentials,ERP/ERPs)是特定刺激所诱发出的脑电信号,其获得方式通常需要将多个相同事件的EEG信号进行叠加。通过对情感语音和自然界非言语声音所诱发的EEG信号使用认知心理学和信号处理方法进行特性分析,较之单纯使用认知心理学方法或信号处理方法,能获得更深入和更全面的情感认知信息,可为人机交互的深入研究提供理论基础,也可为医生诊断和处置病人提供有价值的参考。因此,基于EEG和ERP信号分析的情感认知研究具有重要的理论意义和实用价值。本文研究方向属于脑认知与语音信息处理交叉学科,主要基于认知心理学方法和信号处理方法对情感脑电信号和情感语音及非言语情感声音信号的分析与处理来综合探索并试图解决情感语音和声音在脑认知过程中的相关问题。首先,为了采集有效的情感脑电信号,给出了实验材料的筛选和预处理方法;其次,采用认知心理学方法,针对情感语音声学参数(基频和时长)的不同以及言语的可理解性与非言语之间的差异,提出它们在情感认知过程中是否存在差异的问题,进行实验设计、实验假设及实验结果推测;再次,基于认知心理学方法不能对脑电信号进行有效识别的情况,提出改进的压缩感知方法,用于语音信号和脑电信号的重构去噪中,并对单试次ERP信号进行有效识别;最后,从认知心理学及信号处理角度对全文研究内容进行总结和评价。本文的主要研究内容及创新点如下:(1)情感诱发材料的筛选及处理。基于已有TYUT2.0情感语音库无法满足实验要求的情况,本文对TYUT2.0情感语音数据库的情感类型(增加了中性语音)和数量进行了补充和完善,同时建立了TYUT2.1非言语情感声音数据库。此外,为了便于ERP波形的叠加,本文采用端点检测方法对语音信号起始处的无声部分、字词间距以及首字时长问题进行预处理,实验发现,语音信号经过预处理以后所诱发出的ERP波形成分更明显。(2)汉语情感语音声学参数对ERP成分的影响。基于汉语情感语音不同持续时长和平均基频可能会对ERP成分产生影响的问题进行了实验探索和研究,通过分析N100、P200和N300成分对研究假设进行推论。在持续时长研究方面,选择短时长(0.50-1.00 s)、中时长(0.50-2.00 s)和长时长(2.50-3.00 s)三组实验材料的四种情感(悲伤、生气、高兴和惊奇)进行ERP分析和研究。实验结果发现,当诱发材料的持续时长较短时,更容易通过P200幅值观测出情感之间的显著性差异。在平均基频研究方面,实验材料按照平均基频的不同被分为―高兴>悲伤‖和―悲伤>高兴‖两组,分别对两组实验的悲伤、高兴和中性三种情感进行ERP分析。实验结果指出,N100成分的幅值会受到声音基频的影响,而P200和N300成分的幅值大小并不完全依赖基频,推测其与语音的其它感知信息有关。总之,根据时长和基频的ERP分析结果,本文推测时长和基频参数只对ERP早期成分产生一定影响,对情感认知的整体过程并不产生影响。(3)言语的可理解性与非言语情感的认知差异分析。采用ERP分析方法,对言语的可理解性以及言语和非言语情感在其认知过程中是否存在差异的问题进行研究。实验结果发现,言语可理解的P200成分幅值最高,非言语情感的P200成分潜伏期最短。研究推测P200成分的潜伏期可能与大脑参与言语理解和言语加工相关,P200成分的幅值可能与言语的理解程度和熟悉程度相关。(4)语音信号与脑电信号的重构去噪方法。为了实现信号识别的简单性和有效性,提出改进的压缩感知方法用于信号的处理和分析,并提高信号的抗噪性能,由于压缩感知方法不适用于强噪声信号,因此,本文结合谱减法去噪的优点提出两种基于压缩感知的谱减去噪方法。一是针对OMP重构算法迭代速度快但稀疏度无法自适应的问题,提出帧间自适应的压缩感知谱减去噪(AICSSS)算法,二是针对SAMP重构算法的准确性高但容易出现过匹配问题,提出多匹配正交压缩感知去噪(MMOP)算法。实验结果指出,AICSSS和MMOP算法不仅可以对盲稀疏状态下的信号进行精确重构,还可以提高信号的抗噪性能,且MMOP算法的重构性能和抗噪性能更好。(5)单试次ERP信号的分类识别方法。本文提出适用于单试次ERP信号的压缩感知识别方法,该方法主要是对压缩后的信号进行分类处理,同时采用K-SVD方法训练超完备的冗余稀疏分类字典,通过比较重构的压缩信号与原始压缩信号之间的残差来确定信号的类别。实验结果表明,不论输入的信号是特征还是原始信号,也不论信号是否含噪,采用压缩感知方法都能对其进行有效识别,且采用本文提出的AICSSS和MMOP方法所得到的识别结果均优于传统的压缩感知方法和支持向量机SVM方法。