说话人转变检测的研究与实现

被引量 : 0次 | 上传用户:sddxfg
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
现代IT技术的发展越来越快,获取各类音频文档的方法也都相继出现,而数据量则呈现快速增长的趋势,管理音频文档将会越来越困难,因而对音频文档中说话人转变的检测越来越重要,说话人转变的检测主要包括说话人分割和说话人聚类两个部分。近年来很多研究者开始对音频分割与聚类技术进行了研究[1],利用这技术来管理多媒体语音文档,其中对会议语音的分割和聚类困难最大。基于说话人的不同而对音频文档进行分割与聚类,关键是找出不同说话人之间话音的不同,将含有多个人说话的语音段,根据不同转变点分割成多个片段,且每个片段只含有一个说话人,分割完成后将同一说话人的片段进行标记,采用说话人聚类技术将分割好的语音按照说话人的不同进行重新组合。本文提到的说话人转变检测的方法主要由三个部分组成即特征值提取、说话人分割和说话人聚类。本文对于每一部分都做了详细的介绍,并通过实验比较了不同方法的优缺点,具体内容如下:1)特征提取部分。提取语音序列的LPC倒谱系数和梅尔频率倒谱系数作为说话人的特征参数,通过实验发现MFCC比LPCC性能好。2)说话人分割部分。本文使用的是基于可信度变化趋势和改进BIC的混合说话人转变点的检测方法,利用可信度变化趋势解决了BIC由于数据累积造成的累积错误,而BIC又可以解决由于可信度参数百分比beta选取设定的不合适而造成的误差,实验结果表明使用混合算法比单独使用这两种算法性能分别提高了10%和5.8%。3)说话人聚类。本文使用的是基于等级的分层说话人聚类,介绍了基于基音周期和共振峰频率的性别识别聚类以及基于自适应GMM模型的说话人识别聚类的过程,实验的结果表明此系统适用于说话人人数比较少的场合进行说话人的分割与聚类,例如在电话对话中或者在小型的会议中。
其他文献
随着计算机技术的进步与发展,计算机应用软件被广泛地应用于人们的生活学习和工作中。在这个信息化的时代里,传统的办公方式已经不能满足企业发展的需要。在考勤领域,传统的纸质
现在随着世界经济的发展,中国的小家电企业也发展得十分迅速,但是,国内小家电企业面临着很大的竞争挑战压力。因为持续改进的能力以及产品开发能力的缺乏,严重制约着他们发展的。
<正>像我这样大的年纪,力不从心了。但是,我还不服老,还要为我们东北人民的教育事业卖卖力气,要做人民的一个勤务员,在自己的工作岗位上有一分热,发一分光。领导号召,要鞠躬
目的:研究柔肝颗粒对肝硬化门静脉高压患者血流动力学的影响,评价柔肝颗粒在防治肝硬化门静脉高压病情进展方面的作用。方法:本试验选择符合标准的肝硬化门静脉高压患者60例,按
民办高校作为中国特色社会主义高等教育体系的重要组成部分,必须开设由教育部所规定的诸门思想政治理论课,以达成培养大量合格的社会主义建设者和接班人的根本目标。就现状而言
本文通过室内模拟和田间原位试验,研究了纳米羟基磷灰石(nano-HAP)对重金属Cu2+和Pb2+污染的修复效果。首先研究了nano-HAP对Cu2+和Pb2+的吸附动力学,比较Cu2+和Pb2+吸附行为的不
高校思想政治教育作为整个思想政治工作的重要组成部分在培养大学生坚定的政治信仰、正确的政治方向和崇高的道德品格上发挥着无可替代的作用。但在新世纪新阶段,随着新情况
信息不存在是政府信息公开诉讼的常见诉由。从大量个案可以看出,原告在举证困难的情况下,并无法通过诉讼获得信息,信息不存在诉讼的意义在于给原告“讨个说法”的渠道。基于
深入、系统地研究林地土壤水分运动规律对于揭示森林流域径流形成机制、修正洪水预报模型具有十分重要的意义。本研究选择三峡库区紫色砂岩林地为研究对象,采用野外观测、室
在全球经济一体化和信息网络化的背景下,企业面临的是全球化的市场竞争,这个时代是一个电子商务时代,在电子商务时代,企业竞争真正地实现了运筹帷幄之中,决胜千里之外,全新的