论文部分内容阅读
针对机器学习模型对音乐流派特征识别能力较弱的问题,提出了一种基于深度卷积神经网络的音乐流派识别(Deep Convolutional Neural Network Music Genre Recognition,DCNN-MGR)模型。该模型首先通过快速傅里叶变换(Fast Fourier Transformation,FFT)提取音频信息,生成可以输入DCNN的频谱并切割生成频谱切片。然后对AlexNet作出了改进:将AlexNet中卷积层的激活函数线性整流(Rectified Linear Unit,Re LU)函数替换为带泄露整流(Leaky Rectified Linear Unit,Leaky Re LU)函数,解决Re LU函数带来的神经元坏死问题,避免Re LU函数自变量进入负区间后神经元不学习的问题;将AlexNet中全连接层的激活函数Re LU函数替换为双曲正切(Hyperbolic Tangent,Tanh)函数,利用Tanh函数零均值化处理的特征,在迭代过程中不断增强网络对音乐特征的提取效果;去掉AlexNet中对音乐特征识别的泛化能力增益较弱的局部响应归一化(Local Response Normalization,LRN)层,使网络更易并行化;将AlexNet第一个卷积层的输出节点减少至64个,第二个卷积层的输出节点减少至192个,第三个全连接层的输出节点减少至10个,通过减少冗余参数来加速收敛网络,减少网络的训练时间;在AlexNet提取特征的全连接层后加入Softplus分类器进行特征分类,提升分类识别效果。其次将生成的频谱切片输入改进的AlexNet进行多批次的训练与验证,提取并学习音乐特征,得到可以有效分辨音乐特征的网络模型。最后使用输出模型进行音乐流派识别测试。实验结果表明,改进的AlexNet在音乐特征识别准确率和网络收敛效果上明显优于AlexNet、VGGNet等其他常用的DCNN,DCNN-MGR模型在音乐流派识别准确率上比支持向量机(Support Vector Machine,SVM)、K-近邻(K-Nearest Neighbor,KNN)等其他机器学习模型提升了4%-20%。该论文有图30幅,表16个,参考文献64篇。