会话语音中说话人识别的研究

来源 :重庆大学 | 被引量 : 0次 | 上传用户:fongfongfongfong
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
说话人识别,也叫声纹识别,是利用话音对说话人进行区分,从而进行身份鉴别与认证的技术。说话人识别能够广泛的应用到各种身份认证、安全保密、电话购物等系统中。会话语音,是包含有多个说话人声音的语音,例如:会议录音、电话对话语音、广播电视新闻语音等,会话语音中的说话人识别就是判断是谁在哪个时刻说了话。会话语音中的说话人识别是语音识别一个难点,要用到分段、聚类等技术,对于信息检索、说话人标注、说话人跟踪有重要的意义。本文首先概述了说话人识别技术的发展历史及现状、研究的意义和应用领域,然后详细研究了特征提取,包括端点检测、光谱分析、音素分析,分析了模式识别的几种方法:高斯混合模型(GMM)、隐马尔可夫模型(HMM)、矢量量化(VQ)、人工神经网络(ANN),最后介绍了自适应模型,并采用美倒谱系数(MFCC)+GMM+最大后验概率(MAP)技术实现了一个完整的说话人识别系统。本论文的工作主要包括:①建立了音素持续时间模型,验证了音素持续时间信息对于说话人识别的有效性。并针对训练语音数据量小的情况,提出了2种改进模型。②基于端点检测出的音节切分段,提出了一种1.5秒内可变长的测试语音分段法。相对与固定长度分段和纯音节步长,该方法保证了音节的完整性,恰当的切分了测试段的数据,提高了说话人识别率。③利用说话人转折点多发生在语音停顿处这一现象,提出了句首识别,句中聚类的方法,比较了多种聚类,有效的降低了计算时间,并为某些低配置环境提供了以牺牲少量识别率来换取系统正常运行的有效方法。④采用了MAP在线自适应模型方法,提高了模型的健壮性,并改进了概率自适应测量标准,给用户以更为精确的百分比识别率代替0,1确定的识别结果,进一步提高了识别率。
其他文献
数据挖掘是近些年来发展起来的新技术,通过数据挖掘,人们可以发现数据背后隐藏的有价值的、潜在的知识,为科学地进行各种商业决策提供强有力的支持。当今,数据挖掘已发展成一
分类是数据挖掘领域中重要的研究分支,国内外己经取得了令人瞩目的成就。朴素贝叶斯分类模型由于计算高效、精确度高,并具有坚实的理论基础而得到广泛的应用。然而,朴素贝叶斯分
现代商业银行是一个综合性、多功能的金融企业,它以获取利润为经营目标,以多种金融资产和金融负债为经营对象,它是现代金融服务产业的中枢部分,是国民经济中最重要的经济主体之一
扫描仪是数字化图像输入的重要设备之一,在航片、医疗等专业领域应用中,需要有大幅面、高精度、高分辨率的扫描设备。HG大幅面高精度扫描仪为满足相应应用需求,采用多CCD外视
水文监测系统是一种数据采集和控制装置,可以对水文情况进行实时监测,采集各种测量数据。以当前水文监测工作开展的实际情况来看,采用一个更加标准化的、可扩展的水文监测系统才
在各类信息管理系统中,地理信息系统(GIS)是目前发展最快的系统之一,它是一个有组织的计算机软件和硬件的集合。它可以高效地创建、操作、分析和显示各种类型的地理或空间参
电子政务(EGA:Electronic Government Affair)是利用信息技术实现的符合各级政府的具体业务事务会务需求的应用信息系统。在经济和信息全球化加快发展的情况下,一个信息化的
在我国快速发展的信息化建设进程中,小城镇信息化是最基础、最薄弱的环节之一,加快小城镇信息化已经成为当前我国信息化建设的迫切任务。实现小城镇信息化,政府部门起着至关重要
目前,在作者学院内使用的题库系统是基于C/S模式的。主要工作流程是:在客户端输入要生成的试题科目,点击搜索,查询信息会递交给题目服务器,经若干等待时间后,题目服务器将符
随着大数据时代的来临,对海量数据进行分类的需求日益增加,各种分类算法被应用在不同领域。然而,面对信息时代数据的急剧增长,单一的分类算法通常存在弊端,不能很好地满足需求。大