论文部分内容阅读
多人会话语音中包含了角色身份、说话场地、角色关系等重要信息,通过对这类语音进行角色分离,识别会话中不同角色在何时说了什么话,提升语音识别准确度和语音信息利用率。随着互联网和移动技术的发展,语音识别在日常生活使用率增加,语音角色分离受到国内外学者的关注,从分离模型、识别设备等进行研究用于提升分离准确率,对于各种场景下的角色分离仍然存在一些问题。会议作为多人会话的典型场景,在无先验信息的情况下区分会议中不同角色语音段、对多角色的重叠语音段进行分离,提升多角色混合语音分离的准确率是本文的研究重点。本文以会议场景下的语音信号为研究对象,对在不同场景中使用的语音分离方法进行了对比分析,提出在原有多角色混合语音分离的基础上更加高效的新方法,从而达到提高角色分离正确率的研究目标。根据研究对象的特殊性,先对连续语音进行分割,然后对分割的重叠语音进行二次处理,再对切分的最小角色语音段聚类,最终按本文提出的分离方法进行参数调优输出仿真结果和分离性能评价指标数据,具体研究内容如下:(1)结合人耳听觉系统感声机制原理和声谱图的特性分析,对会议场景下的语音声谱图进行了不同情况的仿真,并对其结果进行归纳分析发现声谱图具有类内相似、类间不同的特性,可以应用于会议场景下多角色语音分离。(2)通过对比典型的多角色语音分割技术,提出了一种基于声纹识别的哈希相似度语音分割方法。不同角色的声谱图的纹理在时频结构的分布、走向等存在一定差异,在频谱的峰值、暂态等描述上也存在一定的区分性,同时同角色的声谱图在短时内具备稳定的特点。基于同角色间声谱图相似、不同角色之间不同的特性,采用基于声纹识别的哈希相似度融合算法先对每帧数据进行纹理编码,在编码的基础上加入检测点相似度判断,使得在解码的时候可以以一定精度判断多角色语音转换点。(3)多角色重叠语音段的分离处理手段采用基于声纹识别和梅尔频率倒谱系数特征融合模型,梅尔频率倒谱可以仿真人耳听觉系统在梅尔标度频率域中提出倒谱参数,然后结合声纹中的共振峰、基音周期特征参数进行建模,将单轨混合语音段分离为按单角色划分的多条单轨语音段,同时从重叠语音段中分离出关键角色说话的语音信息,且人耳听觉良好。(4)围绕以切分的最小单元语音段进行多角色的语音段聚类,采用支持向量机中两个算法组合完成按角色的分类,为了找到能够很好的划分多角色的超平面的最优解,基于说话人特征选择最佳支持向量机核函数提取特征,将其映射到高维特征空间,从而实现不同角色语音段的聚类。实验结果表明该算法在不同语音段这类非线性判决面聚类问题的有效性和准确性。综上所述,本文以会议场景中多角色混合语音作为研究对象,对多角色语音分割、重叠语音段二次分割、说话角色语音段聚类等问题进行了深入研究,在复杂场景下语音分离取得了一些有益的研究成果,为语音识别的提升和语音更好的在复杂场景的应用奠定了基础。