基于语音处理的说话人身份识别研究

来源 :华中师范大学 | 被引量 : 0次 | 上传用户:liutongyang123
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
随着科技的发展,基于生物特征的人脸、虹膜、瞳孔、指纹以及声纹识别不断发展并取得了重大进展。由于语音数据采集方便、简单、成本低且难以模仿,基于说话人语音信号特征从而实现说话人身份识别的新技术不断涌现,使说话人识别技术的应用越来越多,如公安司法查证、银行交易系统、手机智能支付和声控门等。最近新冠疫情席卷全球,人们纷纷响应专家建议佩戴口罩以防止感染,但是却让以人脸识别来进行身份识别的系统陷入困境;此时说话人识别的优势则得以凸显,因此开展基于语音处理的说话人识别研究具有重要理论价值和实用意义。基于传统特征参数提取和模式匹配的说话人识别存在着太多人为因素,且在数据量增多时模型无法拟合说话人特性。论文开展了利用卷积神经网络算法对增强的语谱图进行训练学习和识别的说话人识别方法研究,主要工作如下:(1)介绍了说话人识别的研究意义,概述了其发展现状,阐述了常用的语音特征提取算法和传统的说话人识别模型,讨论了不同说话人识别模型的优缺点。(2)分析讨论了不同神经网络结构的说话人识别算法。介绍了人工神经网络的原理,讨论了基于深度神经网络、延时神经网络以及卷积神经网络结构的说话人识别,同时讨论了不同激活函数和防止过拟合的方法,确定了后文以卷积神经网络为网络结构的说话人识别思想。(3)结合图像识别思想,将说话人原始语音通过预处理变为二维图语谱信息,并通过图像增强技术对语谱图进行图像增强处理,在Pycharm平台上对几种图像增强算法进行了仿真,分析了各增强算法的优劣,并提出了利用卷积神经网络对增强的语谱图进行训练学习进而辨别身份的算法。(4)搭建了基于神经网络的说话人识别系统。搭建的神经网络以LeNET5网络为基础,通过算法仿真对比不同学习率、迭代次数和网络结构各参数对网络识别率的影响,确定了用于说话人识别的网络结构与参数,进而使用此网络模型对AISHELL中文语音数据库进行了仿真测试,测试表明算法可行。同时设计了基于Pycharm平台的QT Creator说话人识别应用系统,将语谱图的生成与增强、说话人识别结果进行封装,实时地实现说话人识别的可视化。
其他文献
印度尼西亚教育正在接受21世纪的考验,为了提升学生的高阶思维能力并做好成为全球公民的准备,英语教师需要提高自己的教学技能。印度尼西亚政府已通过印度尼西亚教育和文化部
近些年来,越来越多国家将义工建设作为国家发展重要工作之一。伴随着我国经济社会的进步和精神文明建设的推进,各类社会活动中对于义工的需求日益增多,这其中青少年群体作为
美国剧作家田纳西·威廉斯以《欲望号街车》、《热铁皮屋顶上的猫》和《玻璃动物园》等剧作闻名,与尤金·奥尼尔(Eugene O’Neill)和阿瑟·米勒(Arthur Miller)齐名,被认为是
磁性材料因其特殊的物理特性,广泛应用在现代工业生产制造中。全世界每天都会生产大量的磁材零件。磁材表面的缺陷将会大大的降低磁材的性能。对磁性材料表观缺陷进行检测是
输电线路覆冰是受线路电压,及温度、湿度、风速、水滴直径等因素影响的综合物理现象。输电线路覆冰引起的故障会严重影响电力系统的正常运行,有些覆冰重灾区甚至会使输电杆塔
历史上每一次重大的技术创新,都对就业产生了深远影响。人工智能技术作为一种技能偏向型技术进步,对制造业就业的影响也不容忽视。本文研究智能化对我国制造业就业的影响,构建指标体系测算我国的制造业智能化指数,分析智能化对制造业就业的影响机理,实证检验智能化对我国制造业就业的影响,结合所得结论提出智能化情境下我国实现制造业就业创造的政策建议。构建制造业智能化评价指标体系,用熵值法测算2010-2016年我国
2007年10月25日.在国家茧丝办、中国丝绸协会的关心和大力支持下.在第十九届中国西部商品交易会于南充举办期间.“中国西部茧丝绸发展高峰论坛”在南充会展中心举行。来自北京、
长沙老龄人口增长速度较快,人均预期寿命延长,老年人口年龄结构由低龄化向中高龄推进,老年人口抚养比不断上升,老龄人口城乡分布有明显差异等特征给财政带来压力的同时,也将
江泽民同志在党的十六大报告中指出:"完善知识产权保护制度"。"鼓励科技创新,在关键领域和若干科技发展前沿掌握核心技术和拥有一批自主知识产权。"著作权(即版权)、专利权、