基于多音素类模型的文本无关短语音说话人识别

来源 :清华大学学报(自然科学版) | 被引量 : 0次 | 上传用户：po54321s

【摘要】

：

对于基于Gauss混合模型-通用背景模型(Gaussianmixure model-universal background model,GMM-UBM)方法的文本无关说话人识别,当测试语音时长缩短到很短时,识别率会严重下降

【作者】

：

张陈昊郑方王琳琳

【机构】

：

清华大学计算机科学与技术系,清华信息科学技术国家实验室技术创新和开发部语音和语言技术中心,信息技术研究院语音和语言技术中心,

【出处】

：

清华大学学报(自然科学版)

【发表日期】

：

2013年06期

【关键词】

：

说话人识别数据驱动识别阶段倒谱系数专家知识比较实验 universal 自动识别矢量量化类数

下载到本地 , 更方便阅读

下载此文赞助VIP

声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架

论文部分内容阅读

对于基于Gauss混合模型-通用背景模型(Gaussianmixure model-universal background model,GMM-UBM)方法的文本无关说话人识别,当测试语音时长缩短到很短时,识别率会严重下降。为了充分利用文本内容信息,该文提出了一种基于K-top多音素类模型混合(KPCMMM)的建模方法。在音素识别阶段,利用语音识别得到训练语音的音素序列,在说话人识别阶段利用音素序列对每个说话人训练多个音素类模型,测试语音则在最相近的音素类模型上进行打分判决,K是选取的相近音素类数。由于音素类定义的不同,KPCMMM方法分为基于专家知识和数据驱动这两类。实验结果显示选择合适的K值可以得到更好的识别结果。不同的音素类定义方法的比较实验结果显示:当测试语音时长小于2s时,对比GMM-UBM基线系统,该方法的等错误率(EER)相对下降38.60%。 For text-independent speaker recognition based on the Gaussian mixture model-universal background model (GMM-UBM), the recognition rate will be severely degraded when the test speech duration is shortened. In order to make full use of the textual content information, a K-MMM-based modeling method is proposed in this paper. In the stage of phoneme recognition, the phoneme sequence of training speech is obtained by using speech recognition. At the stage of speaker recognition, multiple phoneme models are trained on each speaker using phoneme sequences. The test speech is scored on the nearest phoneme model. K is the number of similar phonemes selected. Due to the different phoneme class definitions, the KPCMMM method is divided into two categories based on expert knowledge and data driven. The experimental results show that better K value can be selected to get better recognition results. The comparison of different phoneme definition methods shows that the equivalent error rate (EER) of this method is reduced by 38.60% compared with GMM-UBM baseline when the test speech duration is less than 2s.

其他文献

多台狭缝式高速摄影机联动控制系统的设计

本文作者设计了多台狭缝式高速摄影机在联合工作情况下的电气控制系统。此系统已在陕西临潼骊山微电子公司的协同下试制成功并投入使用。本文主要介绍该系统的结构和工作原理

期刊

联动控制系统高速摄影机单板机光电耦合脉冲调宽电气控制系统译码电路骊山微电子公司系统的结构

会赶羊的鹬鸟爸爸

鹬鸟爸爸小心翼翼地挪动了一下位置,生怕压坏了身下的蛋.它刚接替妻子的孵蛋任务不久,还没有适应呢.rn两天前,就在小鹬鸟即将出生的前夕,鹬鸟太太和别的妈妈一起,告别了丈夫,

期刊

沼泽地位置生命妻子孵蛋非洲春天

搭便车旅行的印头鱼

印头鱼就等着这个时刻.海鳐扇着宽大的鳍翼游过来,它长得真像空中飞行的蝙蝠,难怪又叫海蝙蝠.rn海鳐越来越近.本来还是躺着的印头鱼一个侧滚翻.肚皮朝下,脊背随着波浪朝上一

期刊

搭便车旅行吸盘浮游生物蝙蝠大自然滚翻飞行波浪安全

石油库多路发油过程的微机控制与管理系统

本文采用TMC—80A微型计算机构成了一个油库的计算机控制与管理系统。着重介绍了该系统的结构和设计方法。所涉及的技术内容对国内各级油库具有普遍应用价值。 In this pape

期刊

管理系统油库管理微机控制微型计算机石油库系统的结构采集电路任务处理系统软件结构管理模块

环保达人有办法

真正的环保达人,不会仅仅满足于自己的生活节能低碳,他们要把更多的人“诱惑”到环保行动中来!他们绞尽脑汁发明各种稀奇古怪的东西,只是为了让你的日常生活更方便、更有趣,

期刊

环保节能发明低碳达人

我的舌头真奇妙

吃,是每个人都喜欢的事情.当一小口佳肴被送进嘴里细细咀嚼,那美妙的味道在舌头上弥漫开来,我们的身心都会被满足和快乐填满.rn不用说,舌头是最重要的感受味道的器官.你知道

期刊

舌头味道同部位舌尖咸味位能填满甜味酸味舌根器官苦味教材定论程度

冬季取暖要当心

立冬之后,天气明显地转冷,冷空气已经来了好几拨,一拨还未消散拨又追赶过来.爷爷年纪大了,特别怕冷,懂事的诚诚早在一星期前就骑着自行车把煤球炉从乡下的家里给运到了镇上,

期刊

冬季自行车把煤球炉冷空气天气取暖打工

长不大的寄居蟹

爱尔兰著名的富商布鲁克林始终没有忘记故乡——爱沙尼亚北部山区,生活在那里的索陀曼人主要经济来源是山果,日子过得很清贫.为了让故乡人丰衣足食,布鲁克林每年都会捐一大笔

期刊

布鲁克林经济来源经济建设北部山区爱沙尼亚爱尔兰山果清贫美元捐献富商

OPTICHROM2100工业色谱系统

OPTICHR OMR2100工业色谱系统是美国菲利浦斯(phillips)石油公司的子公司——应用自动化公司(Applied Automatie Inc)的产品。微处理机也可扩展,包括自诊断程序、自动校正以

期刊

自动化公司恒温槽自动校正OPTICHROM2100数字输出两线制输出装置石油公司报警信号阀门控制

鼓舞人心的“V”

相信大家一定很熟悉这样一个手势:将食指和中指竖起分开,形成“V”字.这个手势在相当多的国家里表示“胜利”“成功”之意,因为英文中“胜利”(Victory)的第一个字母是“V”.

期刊

手势二次世界大战英国胜利短波广播德国法西斯比利时字母英文西欧同胞食指入侵侵略国家电台

基于多音素类模型的文本无关短语音说话人识别

与本文相关的学术论文