基于卷积神经网络的不同口音对话自适应识别研究

来源 :重庆大学 | 被引量 : 0次 | 上传用户：mabeishangdeniuzi

【摘要】

：

近年来,计算机与互联网引领了整个世界的发展潮流,在这个信息爆炸的大数据时代,每天来自各个领域的音频文件不计其数,语音识别技术也随之越来越受到学术研究和工业生产的青睐

【作者】

：

张盼

【出处】

：

重庆大学

【发表日期】

：

2004年期

【关键词】

：

MFCC_SPECTROGRAM融合特征说话人语音分割口音分类语音识别

下载到本地 , 更方便阅读

下载此文赞助VIP

声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架

论文部分内容阅读

近年来,计算机与互联网引领了整个世界的发展潮流,在这个信息爆炸的大数据时代,每天来自各个领域的音频文件不计其数,语音识别技术也随之越来越受到学术研究和工业生产的青睐。然而在语音识别的过程中难免会遇到在一段语音中包含有不止一个说话人的音频文件,也难免会有带有不同口音的说话人声音存在,这两种客观问题的存在势必会影响语音识别的效果,很大程度上降低了识别系统的性能。因此本文针对这两个问题展开研究和讨论。本文首先提出一种基于美尔频率倒普参数(Mel-Frequency Cepstral Coefficients,MFCC)和语谱图(SPECTROGRAM)的融合特征MFCC_SPECTROGRAM。由于人耳对声音的感知系统是一种特殊的非线性系统,美尔频率倒普参数就是从人耳听觉角度出发着重描述语音信号的隐含特征,而语谱图则是从人体对语音信号的生成系统角度出发着重描述语音信号的本质特征,本文结合MFCC和SPECTROGRAM两种特征各自带有的特性,提出MFCC_SPECTROGRAM语音融合特征参数,作为后续语音研究的基础特征。其次本文引入CALL-CENTER概念,并针对CALL-CENTER环境下客观存在且具有一定特殊性的大量语音数据作以描述与介绍。本文CALL-CENTER环境下的语音录音文件一般都包含两个说话人的声音,并且会有两种口音的出现,一种是普通话,另一种是四川话。本文针对包含两个说话人的对话语音提出一种融合特征下基于卷积神经网络的说话人语音分割模型。使用融合特征来表示说话人的语音信号特征,作为卷积神经网络的输入,对话者语音特征进行训练得到可作为话者语音标记分割的训练模型。并通过实验对比,结果证明在相同特征下基于卷积神经网络的说话人语音分割算法效果高于传统的贝叶斯距离分割算法,在本文提出的基于卷积神经网络的说话人语音分割模型下,MFCC_SPECTROGRAM融合特征作为语音特征得到的分割结果高于单独的以MFCC或者SPECTROGRAM语音特征所得到的分割结果。最后本文针对CALL-CENTER环境下的语音录音文件包含不同口音的现象提出基于加权多特征融合的不同口音自动分类方法,同时提出不同口音对话自适应识别研究。根据得到的话者切分标记以及不同口音的分类标记自动调用语音识别系统进行自动识别。为了验证本文所提出的方法与模型的可行性和有效性,引入中国著名企业科大讯飞的语音识别开放系统,通过一系列相关实验对比,结果表明在一段含有不同口音的对话语音录音中,对不同话者的语音进行切分后所得到识别结果高于原始语音的识别效果;对不同口音的语音进行分类,并调用相应的不同的语音识别的接口所得到的语音识别效果高于原始语音的识别效果,结果证明本文所提出的方法和模型具有一定的研究意义和实用价值。

其他文献

湖北省粮食补贴政策绩效评价研究

粮食是一种特殊的产品,是维护国民日常生活的必需品,更是保证国家政治稳定和经济发展的物质基础。因此粮食的安全与长效保障机制在农业中占有重要的地位。粮食补贴对保障农民

学位

粮食直接补贴绩效评价补贴长效机制

核心素养视角下初中体育差异化教学开展策略探究

核心素养是指一个人所具备的能够适应社会发展和个人未来发展的品格与能力。发展学生的核心素养是党对于教育的重要要求,而差异化教学可以有效提高学生的核心素养。差异化教

期刊

核心素养初中体育差异化教学策略探究

用于激光光束整形的二元光学元件的设计

随着激光技术在工业、农业、医药卫生、国防和科学研究等各个领域的越来越广泛应用,人们对激光光束质量提出了更高要求。而激光光束呈高斯分布和传播路径是双曲线的特性,限制

学位

激光波前整形二元光学元件人工鱼群算法光学设计ZEMAX

中国转型期非正规就业女性群体的福利权问题研究

福利权是指现代国家中社会成员在收入维持、衣食、健康、住房、就业与社会服务等方面所拥有的权益,它是公民社会权利的主要组成部分。在中国的经济改革和社会转型过程中,城镇

学位

非正规就业女性福利权赋权扎根理论

策略互动、协调与区域经济发展

经济发展的历史证明,经济资源配置与利用的有效性与经济发展的协调程度呈正相关关系。一个区域内提高经济活动的协调程度有利于生产要素的自由流动和优化配置,有利于全面提升

学位

策略互动协调地方政府区域发展

政府部门效能建设研究

现代政府要充分发挥其社会主导作用,必然要有足够的能力制订和推行政策,并使其决策科学化。提高政府效能则是强化政府能力的一个重要方面。作为政府部门,税务系统需要对自身

学位

政府效能税务系统效能影响因素相关分析途径方法

列车及轨道参数对曲线钢轨波磨影响及防治措施研究

针对地铁曲线段出现的钢轨波磨问题,利用车轨动力学模型研究了转向架一系横向及纵向刚度、轮轨摩擦系数、曲线半径、超高、轨距、轨道横向及垂向支撑刚度等参数对曲线轮轨磨

期刊

地铁列车轨道曲线钢轨波磨防治措施

斜拉拱桥边跨混凝土箱梁温度效应研究

混凝土箱梁以其综合优势在桥梁工程中得到了广泛的应用，然而随着桥梁的跨度越来越大，箱梁截面尺寸和局部体积变大，混凝土箱梁结构水化热的温度场和应力场以及运营期间日照引起的

学位

箱梁水化热有限元分析太阳辐射温度场温度效应

印度种姓制度浅析

纵使自1948年始,印度议会陆续颁布的一系列法律使得印度低种姓人民的社会地位有所改观,但这似乎只是表面上所号称印度人民无论肤色、无论种姓、无论性别、……‘禁止一切形式

期刊

种姓制度意识形态印度

逻辑经验主义与法学研究方法

逻辑经验主义继承了实证主义哲学体系反形而上学的历史使命，认为哲学问题只涉及科学知识的逻辑结构，一个命题或理论的意义在于对一个适当的可观察语句进行事实检验。笔者试图在

期刊

命题意义逻辑分析经验主义

基于卷积神经网络的不同口音对话自适应识别研究

与本文相关的学术论文