复杂信道下的说话人识别

被引量 : 0次 | 上传用户:dxlwwh
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
本论文研究的是复杂信道情况下的与文本无关的说话人识别问题。本论文的目标是在保证实时实现的基础上尽量提高识别率,在这篇论文中,从前端特征抽取,GMM UBM模型下的测试得分,支持向量机系统下的特征参数、正负样本选取,信道空间估计等各个方面展开了研究,提出了一系列新算法,并且获得了实验的证明,主要集中在以下几个方面:说话人识别最常采用的是固定帧长、帧移的声学参数,这种算法中清音和浊音是同等对待的。由于清音是一种类白噪声的信号,而浊音是一种准周期的信号,反应的是说话人声道变化的情况,浊音包含有更多的说话人信息。因此,在本文中求取特征参数时不固定帧长,对浊音进行适当的加权处理。通过动态的参数处理,相对于固定帧长的参数等错误率有10%左右的下降。说话人识别的主流算法是混合高斯模型,在测试的时候,采用的是求对数似然度的方法,本文另外提出一种采用模型距离央角的判决算法,这种算法不仅能够取得与对数似然度算法相近的识别率,而且可以与对数似然度算法的得分融合,将说话人识别的等错误率降低12%~15%。最近几年,支持向量机在说话人识别中取得了突破性的进展。本文中从三方面改进支持向量机说话人识别系统。1)提出了将优化后的GMM的均值、权重都作为区分性模型的特征矢量,优于传统的只将均值作为特征矢量的系统,相对于基线系统性能有20%以上的提升。2)将模型距离和夹角作为支持向量机的输入参数并将其与GLDS参数结合。3)针对正负样本的平衡问题也提出基于模型距离和采用支持向量机去挑选合适的负例,采用切分的方法增加正例。信道一直是影响说话人识别的最大因素,由于通信线路的复杂性以及话筒的多样性,会对原始的语音产生偏移,因此会导致识别性能的急剧下降。针对信道的影响,本文提出三种方法在均值超矢量空间估计信道空间:采用EM算法、主成分分析的算法和与NAP结合的PCA分析的算法,在估计出信道空间之后再通过特征映射的方法去除信道的影响,去除信道信息的系统相对于基线系统在等错误率上最多有22%以上的下降。因子分析是解决目前信道问题的最有效算法之一,本文将相关系数的MAP与因子分析相结合,从而将因子分析的复杂度大大降低。在估计出信道空间之后,采用特征映射的方法将前端特征参数的信道信息去除,将因子分析仅仅限制在前端处理参数,保留了GMM UBM的完整框架,大大降低了计算量,而等错误率可以降低将近40%。另一方面,将因子分析与支持向量机相结合,可以取得比NAP还好的效果。
其他文献
消息中间件和Web Services是两种主要的用于系统集成的中间件技术。为了适应课题中的企业级分布式系统集成,结合上述两种技术构建的面向服务的消息中间件模型可应用于该领域
满怀“使区宇大定,海县清一”政治理想与壮志未酬的苦闷是李白诗歌创作的心理契机。思想的复杂性和生活方式的多样性使李白不能定位出人生价值的走向。李白困惑于明月式的向往
21世纪是创新的世纪,21世纪的中国需要大批的创新人才,创新人才的重要特征是具有创新思维。学会创新思维是时代的呼唤,培养学生的创新思维是教育的应为,培养创新思维在创新教
指出高等学校海外办学是世界经济一体化、全球化的必然结果。尝试分析我国高校实施海外办学的优势、劣势、机会与威胁,探讨海外办学的专业与区域组合策略,并提出具体实施海外
多传感器数据融合的应用范围十分广泛,包括军用和民用的众多领域如:目标跟踪与识别、医疗诊断、交通管制、工业机器人等等。多传感器数据融合的目的是,利用多个或多种传感器提供
目的:观察中西医治疗真菌性角膜炎的临床疗效。方法:收治真菌性角膜炎患者60例,采用氟康唑注射液和那他霉素滴眼液点眼结合中药内服治疗。结果:治愈48例,显效10例,无效2例,总
串级调速在对风机、泵类等大容量平方转矩负载进行控制时,其节能效果是十分可观的。晶闸管串级调速,具有高效、节能以及装置结构简单、维护容易、能实现连续平滑地调速等优点
骨质疏松症已经成为影响人类健康的疾病之一。在国外,骨质疏松症病人已占据人口相当的比率。人们为了提高身体健康水平,防治骨质疏松症及其所导致的各种并发症,投入了巨额资
随着电力电子器件在工业中的广泛应用,其产生的谐波电流注入电网,影响电气设备的正常工作。谐波的污染问题已经成为影响供电质量的重要问题。传统的无源电力滤波器和有源电力
当前国际局势风云变幻,各种复杂关系纠葛其中。中国主流媒体在国际问题和涉华问题中发声不多、力量不够的状况使国际社会对中国缺乏了解,让西方媒体有机可乘,给中国带来不少