【摘 要】
:
声学场景分类(Acoustic Scene Classification,ASC)是一项对特定声学场景进行识别与分类的技术,其广泛应用于智慧城市、自动驾驶、安全监控等多个领域。近年来,越来越多的研究人员开始探索ASC领域,并提出了许多有效的模型,其中卷积神经网络(Convolutional Neural Network,CNN)凭借其强大的表达能力与突出的分类性能,成为本领域当前的主流方法之一。在
论文部分内容阅读
声学场景分类(Acoustic Scene Classification,ASC)是一项对特定声学场景进行识别与分类的技术,其广泛应用于智慧城市、自动驾驶、安全监控等多个领域。近年来,越来越多的研究人员开始探索ASC领域,并提出了许多有效的模型,其中卷积神经网络(Convolutional Neural Network,CNN)凭借其强大的表达能力与突出的分类性能,成为本领域当前的主流方法之一。在基于CNN的模型中,大多数是使用卷积层提取带有时序信息的特征图后,直接对其进行最大池化操作,以减小特征图尺寸,再将最大池化层的输出送入分类器。虽然最大池化相对简单,但可能会丢失有用信息,且无法输出固定尺寸的特征图,导致网络只能处理特定尺寸的语谱图,造成模型通用性较差。为此,本文就池化层部分的改进方法展开研究,主要内容如下:(1)为了在池化部分提取更优且固定尺寸的特征,提出了基于可学习字典编码(Learnable Dictionary Encoding,LDE)的声学场景分类方法,通过对当前场景与所有场景共性特征之差进行加权编码,来提取当前场景相对于其他场景更有判别性的特征。鉴于LDE需要较多字典中心才能达到较高分类准确率的情况,进一步提出了基于字典中心均衡可学习字典编码的声学场景分类方法,通过控制每个字典中心对应的权重,使得所有字典中心能够均匀地学习到场景共性特征。实验结果表明,该方法可以取得优于基线系统的效果。(2)对于不同的场景类别,最有判别性的信息往往处于语谱图的不同频段上,据此提出了基于子频谱可学习字典编码的声学场景分类方法。其将完整语谱图在频率维度上划分为多个子频谱,分别输入到不同的LDE中编码,然后将编码结果向量合并到一起,再使用分类器进行分类。研究中探索了不同的划分方式与划分操作在网络中的位置,以得到最优的网络结构。考虑到每个LDE中字典中心的使用效率问题,也在最优网络中加入字典中心均衡策略,提出基于子频谱字典中心均衡可学习字典编码的声学场景分类方法。实验结果表明,该方法可以进一步提高模型准确率。
其他文献
数字化时代下自闭症儿童绘本发展现状还不成熟,存在市场空缺大、绘本设计中存在社会刻板印象、设计缺乏时代特征性、绘本缺乏趣味性等问题。如何通过数字化技术的应用使自闭症儿童绘本得到发展,本文将从交互性、时代性、趣味性3个方面寻求数字化转型下的自闭症儿童绘本发展新途径。
文章针对学龄前儿童绘本信息可视化设计展开阐述,并结合当前学龄前儿童的心理特点和绘本使用现状,对学龄前儿童绘本的信息可视化设计现状和重要性进行分析。首先通过文献研究法、历史法探究了信息可视化的特征及发展脉络,其次,通过经验总结出了学龄前儿童绘本的信息可视化设计表现。最后,研究得出信息可视化作为不同于以往单纯的文字传播方式,给儿童的日常生活和教育活动带来了一定的变化,并且也深深地影响着儿童教育的教学方
图像语义分割任务作为其他高层图像处理任务的基石,从始至终都是计算机视觉应用领域的关键和热点研究方向,其对于汽车自动驾驶,人机交互等与人类生活密切相关的应用领域,也产生了巨大作用。随着人工智能与深度学习技术的兴起与发展,采用深卷积神经网络(Deep Convolutional Neural Network,DCNN)技术的一系列图像分割方式和早期方案相比性能有了很大的改善。这种基于深度学习的方式,通
乌尔逊-贝尔凹陷是海拉尔盆地上油气勘探开发的重要区域,由于经历了多期构造变形的叠加,呈现出现今地层断裂极其复杂的局面,其典型斜坡带上的油气成藏现象明显,是小型断陷湖盆油气预探与规模增储的主要突破方向。本论文在前人研究的基础上,以海拉尔盆地乌尔逊-贝尔凹陷为靶区,系统分析典型斜坡带的构造演化过程及油气富集规律研究。基于斜坡断层的平面特征和剖面特征,明确其几何学特征,绘制位移距离曲线和生长指数曲线,判
新时代新征程,建设宜居宜业和美乡村正当其时。文章从西安市高新区宜居宜业和美乡村建设现状出发,详细地分析了西安市高新区建设宜居宜业和美乡村存在思想认识有待提高、建设资金有待落实、村庄方案有待完善、建设标准有待提高的问题,有针对性地提出了深刻理解宜居宜业和美乡村建设内涵;聚焦特色产业,实现乡村村民增收;推进乡村创新改革,强化长效治理;改善高新区人居和人文环境的对策,以期加快西安市高新区宜居宜业和美乡村
数字出版技术场域的变迁与新兴科技的发展紧密关联,当下,AI、VR、云计算、区块链等新技术正不断推动数字出版的创新与发展。持续涌现的数字出版新技术使得儿童绘本的交互形式实现了从线性式、多媒体化向立体式、沉浸式与多模态化的转变。未来,随着数字出版技术的进一步更新与迭代,儿童绘本的交互性将全面升级——在VR、AI、数字孪生、数据挖掘、云存储等数智科技构建的数字出版新技术场域中,儿童绘本或将实现从图文、声
J凹陷二叠系L组非常规油气资源丰富,分布范围广,纵向发育多套有利层,叠加厚度大,凹陷东区目前已经实现开发,西区也具备良好的效益勘探前景。但J凹陷西区L组细粒沉积成因及分布规律不明朗,储层主控因素、分类评价及分布规律不清,这是当下急需解决的关键问题。本文依据岩心、测井、地震及室内实验等资料,以高分辨率层序地层学、储层地质学等理论为指导,将J凹陷西区L组划分为1个长期旋回,4个中期旋回,18个短期旋回
随着手机等便携拍摄设备的普及,越来越多的人愿意选择自行拍摄照片并进行图像编辑,这其中就涉及到了一项重要的计算机视觉技术图像修复。本文主要对使用深度学习中的注意力机制方法进行图像修复进行了深入的研究。现有的图像修复方法在一些复杂大型孔洞上仍然存在填充结果不合理颜色模糊差异等问题。除此之外,现在手机的像素也变得越来越高,人们对于现有的图像修复方法达到的效果逐渐不满意。图像修复任务在现实生活中应用最广泛