论文部分内容阅读
随着近些年来互联网技术和数字多媒体技术的飞速发展,带来了如文学、摄影、音乐等各类艺术作品数量爆炸式的增长。越来越多的人开始通过互联网参与到了这些艺术作品的创作、传播和欣赏上来。针对这些艺术作品里面其中一类音乐而言,各种类型的在线音乐服务成为了人们日常收听音乐的主要渠道。人们对音乐作品流派的个人喜好也促使服务提供商提供更加准确的音乐分类结果。主要由专业人员理解音乐并进行人工分类的传统方式在面对海量音乐时已力不从心,使用计算机程序对音乐流派进行自动分类势在必行。在音乐流派分类这一任务中,很多经典机器学习方法在标准数据集上取得了很好的效果,但这些方法大量使用了由领域专家设计的人工特征,对非领域专家来说门槛较高。部分特征缺乏通用性,无法很好地迁移到其他领域使用。随着深度学习模型在其他领域的广泛使用,音乐流派分类任务也开始出现了使用深度学习模型的方法。但现有方法在准确率、模型复杂度、模型训练等方面还有不足,本文提出了一种新的卷积神经网络架构—DenseInception网络(Densely Connected Inception Neural Network),以解决现存问题。本文借鉴了计算机视觉领域两大重要卷积神经网络架构DenseNet和Inception结构,提出了新的卷积神经网络结构DenseInception模块,并以此为基础提出了DenseInception网络这一新卷积神经网络架构用于音乐流派分类。DenseInception网络通过采用与DenseNet一致的密集连接(Dense connectivity)改善了信息在网络输入端和输出端之间的传递,采用类Inception结构进行有效卷积核尺寸的自主选择,提高了模型的表示能力并降低了模型设计人员的负担。同时DenseInception网络采用了基于音频片段的预测方式,更加注重音频数据局部有效特征的学习,赋予了模型对不同长度音频样本进行分类的能力,提高了模型对不同场景下的分类任务支持。本文分别在GTZAN数据集和ISMIR2004数据集上进行了多次实验,实验结果表明,DenseInception网络展示出了强大的特征提取能力和分类能力,在GTZAN数据集和ISMIR2004数据集上进行10折交叉验证获得了88.7%和87.68%的准确率,超过了同类模型达到了领先的水平,仅次于少量使用专家人工设计特征的分类模型,在进一步使用MSD(Million Song Dataset)数据集进行预训练以后,模型效果进一步大幅提升,DenseInception网络在GTZAN数据集和ISMIR2004数据集上准确率分别提升到了91.0%和89.91%,证明了DenseInception网络的有效性和先进性。