基于字典学习的说话人识别算法研究

来源 :南京邮电大学 | 被引量 : 0次 | 上传用户:yyx360
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
说话人识别是一种通过分析话者声音中带有身份信息的特征来对话者身份进行识别的技术。它是一个综合了多个学科的研究课题,它交叉运用心理学、生理学、数字信号处理、模式识别、人工智能等不同领域的知识。以应用在需要进行身份认证的各种安全领域、互联网应用及通信领域、呼叫中心领域等。目前,说话人识别的技术已经日臻成熟,但在真实的使用环境中,说话人识别系统对噪声的抗干扰能力,即噪声鲁棒性问题仍是较大的困扰,也是对其的广泛应用产生了巨大阻碍。本文便针对此问题进行研究。本文以说话人识别和稀疏分解技术为背景,分析经典高斯混合背景模型(Gaussian Mixture Model-Universal Background Model,GMM-UBM)方法与身份认证矢量(Identity Vector,i-vector)方法的优劣,并着重研究稀疏分解在说话人识别领域的应用,主要目的是提高噪声环境下的说话人识别系统识别率,以及减少内存,提高计算速度等。首先,本文对语音信号及说话人识别的基本原理进行了分析。从语音信号的声学产生机理、信号的预处理(端点检测、分帧、加窗)、梅尔倒谱系数(Mel-Frequency Cepstrum,MFCC)等常用特征的提取、系统识别率的判断参数都做了详细介绍。另外,还分析了经典的GMM-UBM系统模型及算法。然后,本文对业内最为流行的身份认证矢量(Identity Vector,i-vector)特征框架进行了分析,对i-vector的概念原理、提取方式进行了叙述和验证。同时对泛用的线性判别分析(Linear Discriminant Analysis,PLDA)也进行了阐述。另外,还介绍了几种对i-vector的信道补偿方法,如线性区分分析变换、长度规整和数据白化等。使用Timit语音库进行实验验证,得到其在纯净语音环境下识别率较高,噪声环境下鲁棒性较差的结论。接下来,本文提出了一种基于字典学习和低秩矩阵分解(Low Rank Structured Dictionary Learning,LRSDL)的说话人识别系统。受字典学习和低秩矩阵分解在图像和语音增强领域的应用启发,我们将说话人的i-vector特征作为字典原子,将低秩矩阵分解添加到字典学习中,从而得到带有说话人i-vector共性特征和噪声的低秩字典,使最后测试语音的i-vector在子字典上的投影少受到共性和噪声部分的干扰,提高识别的准确率。最后,针对信噪比低时,两种方法识别率均较低的问题,本文提出了一种基于LRSDL和i-vector融合的说话人识别系统,在打分阶段对i-vector\PLDA和LRSDL方法的打分结果进行加权平均,结果表明这种方法能在低信噪比环境下对系统性能做出有效改善。
其他文献
【研究背景】类风湿关节炎(Rheumatoid arthritis,RA)的病理特点为血管翳和滑膜炎,常常出现骨和软骨破坏。而在RA骨和软骨破坏过程中起到主要核心作用的是RANKL/RANK/OPG系统。RANKL、RANK、OPG三者之间的相互作用影响着RA破骨细胞(Osteoclasts)和成骨细胞(Osteoblasts)之间的平衡,进而影响骨代谢。近年来为了预防和治疗RA骨和软骨破坏,RA
<正>教学时间:2011年11月17日下午教学场合:苏州市中小学2011年课改展示活动教学班级:江苏省昆山中学高一(1)班【执教背景】课前一天下发教材《与君书(节选)》及《学情调查表
在实际工程中牛腿作为一种支撑结构应用广泛。已经有很多学者对于钢筋混凝土牛腿的受剪承载力进行了大量的试验和理论研究,但对于钢筋混凝土牛腿是否存在尺寸效应研究相对较少,提出的抗剪承载力计算模型对不同尺寸牛腿的适用性也缺乏验证。由于钢筋混凝土牛腿结构的不连续性导致牛腿的受力也不连续。复杂的受剪机理导致国内外对于牛腿的受剪承载力没有一个统一的分析方法。本文通过试验和分析已有的研究成果对钢筋混凝土牛腿抗剪承
广告中的文字一般由标题和正文组成。当然,最能吸引人的是广告标题。据美国广告专家调查的结果,消费者阅读标题的概率是正文的5倍。一则广告首先映入眼帘产生第一印象并引起
分析一些挤出模具的定型模,可以明显地看出他们的设计所追求的主要目标是冷却成型的均匀性,而不是简单的冷却效率。本文运用ANSYS模拟软件,对塑料异型材功能块部位在挤出定型
胶质瘤(Glioma)是成人脑肿瘤中最常见的颅内恶性肿瘤。手术、术后替莫唑胺(Temozolomide,TMZ)联合放疗以及替莫唑胺辅助化疗是目前胶质瘤的标准治疗方案。尽管如此,神经胶质
如今,新媒体发展速度非常快,传统新闻传播平台的局限性开始凸显。新闻传播专业应顺应社会发展,培养大量的多媒体人才,在新媒体环境下构建新闻传播资源平台。院校内部应该培养
在国家的"十三五规划"和国家产业转型升级的背景下,互联网金融与融资租赁的结合成为创新的产业融合发展模式。融资租赁业务是我国经济发展的重要组成部分,对于我国经济发展起到
目的:了解医学生在国际本科学术互认课程解剖学教育后自我评价,探讨国际本科学术互认课程解剖学教育在医学生学习中的意义,以便根据医学专业特点调整和指导国际本科学术互认
为了探讨不同的预处理方法,结合形状和纹理特征,对新疆哈萨克族食管癌图像的分类效果,通过采用锐化、中值滤波结合锐化和中值滤波结合直方图均衡化三种方法对溃疡型和缩窄型