基于语谱图和卷积神经网络的语音情绪识别研究

来源 :西南财经大学 | 被引量 : 0次 | 上传用户:zjinboy
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
随着时代的发展,对人类情绪的识别已成为一个非常热门的研究领域。常见的有基于面部表情、文本内容、生理信号以及人类语音等方面的情绪识别方式。其中,作为日常生活中最主要的沟通和交流方式之一,语音中包含了大量的说话人的情绪信息,对于这些信息的充分获取和识别不仅推动了人类之间的交流,也对人机之间的交流效果有着很大的影响。近年来金融业、旅游业、远程教育和刑侦测谎等各个行业和领域中人机交互的繁荣使得利用人工智能理解和区分人类情绪的需求日益高涨,因此,语音情绪识别拥有着极其重要的现实意义和非常广泛的应用前景。
  对语音情绪的识别源于声学的研究和统计,此前大量研究工作的重点都放在寻找新的声学特征以及对已有声学特征进行组合选择上,这些特征一般需要进行手工提取,所以需要一定的声学理论基础和大量的实验尝试,并且难以深入挖掘人们无法察觉的特征。而语谱图从时域、频域和能量上反映了大量的语音隐藏信息,近年来已成为语音情绪识别的新热点。卷积神经网络(CNN)作为一种自学习方法,能够深入挖掘图像的特征信息用于分类,在图像识别领域上表现优异。因此,本文选用CNN模型从语谱图方向入手来进行语音情绪识别的研究工作。
  本文的主要研究工作如下:
  (1)根据INTERSPEECH2009情感挑战赛特征集,提取CASIA汉语语音情绪数据库公开部分数据的声学特征,分别运用KNN和SVM方法进行语音情绪识别,得到了较好的识别效果。
  (2)通过对音频数据预处理、绘制出语谱图后,运用CNN方法进行语音情绪识别,经过与基于声学特征的传统KNN和SVM识别方法对比,虽然不及传统声学特征的准确率,但仍然验证了基于语谱图的CNN方法的可行性。
  (3)针对原始数据集样本较少的缺陷,采用离线图片增强的方法模拟加入语音样本对原始语音集进行了扩充,显著地提升了基于语谱图的CNN方法的识别效果。在此基础上,使用多种数据增强组合进一步地探索和优化模型性能,有效规避了在语音情绪识别场景中常见的数据稀疏问题。
  (4)根据图像领域中Dense Block重复学习图片特征的思想,在数据集不变的情况下使用Dense Block结构对CNN模型进行优化改进,实验证明改进后的模型准确率较原始模型有一定提升。还尝试性地将数据增强和模型优化两种方式结合起来,进一步探索和研究如何提升语音情绪识别的效果。
  (5)综合语谱图图像特征和传统声学特征,对这两种不同类型的互补性特征运用中间层特征拼接和决策层投票两种方式进行了多模态融合研究工作,有效提高了语音情绪识别率。
其他文献
传统金融行业中各类型数据丰富,蕴藏着巨大价值,如何有效地使用这些数据并从中提取有用信息,帮助用户进行决策,是目前金融业内人士面临的一大问题。而构建金融领域的知识图谱可作为该领域语义理解及搜索的关键技术,为以后金融领域的文本分析、数据挖掘、决策推理等提供有力支撑。  知识图谱是2012年Google公司提出的一个新概念,是一种用图模型来描述知识和建模世界万物之间的联系的技术方法。知识图谱由节点和边组
学位
图像超分辨重建是计算机视觉研究一个重要的方向,在现实生活中可以应用在许多领域。在实际工作或者日常生活中因为设备成本、技术限制、网络限制等因素常常不能得到足够清晰的图像。如果单纯的依靠提升硬件设备不仅成本耗费非常大,而且有些情况下会难以实施,比如人体医学成像中会受到人体组织的干扰。因此,对图像的超分辨处理在某些时候就显得尤为重要。图像超分辨重建的技术已经应用在很多领域,如医学成像、遥感成像及监控视频
在大数据时代,“信息过载”是困扰用户快速有效的从互联网获取有价值信息的主要问题。推荐系统作为解决这一问题的有效方法,已经成为学术界和工业界的关注热点并且得到了广泛的应用。然而,由于数据规模以及数据多样性的与日俱增,传统的推荐算法已经达到了性能瓶颈,同时,随着深度学习技术在图像、视频、语音等领域的广泛应用,基于深度学习的推荐算法目前成为研究热点。因此,本文提出了基于图卷积神经网络的推荐算法模型,并利
学位
随着人工智能技术的不断发展,知识图谱(Knowledge Graph)已成为结构化知识驱动智能应用的核心数据支撑。知识图谱本质是一种语义网络(Semantic Web),其节点代表实体(Entity)或者概念(Concept),边代表实体或概念之间的语义关系(Relationship)。知识图谱包含大量结构化知识,形如三元组:,例如:;二元组:,例如:。知识图谱帮助机器理解知识语义信息,广泛应用在
学位
当今世界,任何一个国家都无法独立发展,各种文化之间的相互影响和渗透越来越大,甚至促进了人类社会的进步。因此,不同语言之间的翻译已成为各国经济、政治和文化交流过程中的关键点。随着全球化的不断深入,各类翻译活动更是如火如荼的开展起来。人们现在不仅需要高效快速的翻译,对翻译质量的要求也是越来越高,这就需要对翻译质量进行评价。过去对翻译质量的评价主要靠人工进行,主观性较强,没有确定的译文质量评价标准,并且
学位
传统金融学和现代行为金融学都认为股票市场的波动受到信息发布、传播、公众接受的影响。早期的股价预测研究主要是对股票历史交易数据进行分析处理,从中挖掘对股价走势判断有利的特征,随着人工智能、自然语言处理技术等技术的发展,从新闻媒体中提取能够反映宏观经济、基本面以及影响投资者情绪的信息变为可能,研究者开始将新闻文本数据与股票交易数据结合对股价进行预测。  利用新闻进行股价预测的关键之一是准确提取新闻中包
学位
在经济全球化的背景下,企业与企业之间逐渐建立了密不可分的关系。企业不仅仅会受到企业本身发展的直接影响,还会受到其合作伙伴支持和竞争对手的限制。在一家企业的全球化进程中,单兵作战往往会发展成为多家合作、交叉控股从而减少风险。对一家企业的评估不能只停留在企业本身的资产负债表和利润表,还要对与该企业相关联的公司进行风险评估。例如2016年乐视发生信用风险,一家大公司突然没落影响了多家相关企业和个人发生信
学位
现实世界中的网络往往并非是孤立运行的,不同的网络之间会存在着千丝万缕的关联,例如物理依附、逻辑依赖、能源或信息交换等,互相依赖、协同工作的网络情况更是现代社会普遍的现象。现实告诉我们,各类互相关联的网络共同服务于我们,能够大幅提高工作效率,缩短工作时间,但是与之对应的,所有网络之间都相互关联也存在着不小的风险。  近年来,不少学者根据现实世界的网络情况,抽象模拟出了多种具备不同特殊性质的网络模型,
学位
2008年,中本聪提出了比特币的概念,经过一段时间的发展,根据其概念应运而生的开源软件、对于比特币架构及其核心算法的研究形成了比特币的生态环境。  由于比特币早期具有易流通、交易成本低、易挖矿、去中心化的特点,比特币在早期发展速度很快。但是由于比特币体系匿名性的特点,这一点被不法分子利用用作金融犯罪活动,各国政府一度对比特币交易进行严格的管控,导致比特币价格出现了不稳定的情况。  经过这几年起起伏
学位
区块链技术是近十年来的新兴技术,具有去中心化、不可篡改、数据公开透明等优点,是分布式数据存储、P2P网络和公钥密码学等技术的新型应用模式。区块链技术的发展带动了互联网、金融、电信等各个领域的产业技术革新,一种新型产物——Dapp(Decentralizedapplication,去中心化应用)也应运而生,其广义定义为:运行于分布式网络,所有参与者信息受到安全保护,基于分布式网络进行去中心化操作的应