论文部分内容阅读
音乐旋律生成算法赋予机器生成旋律的能力,是人工智能在艺术领域上的应用,可用于辅助音乐人的创作,为音乐人提供新的创作思路。近年来,受深度学习的影响生成算法得到了快速的发展。结合了深度学习的生成算法,被称为深度生成算法,利用了深度神经网络超强的表达能力和高维的建模能力。本论文采用端到端的深度生成算法生成长度为16小节的单音旋律,通过改善现有的或探索新的深度生成算法的方式来提高生成旋律的质量。当前用于音乐旋律生成的深度生成算法大部分基于生成对抗网络或变分自编码器。本论文着重研究了基于变分自编码器的音乐旋律生成算法,旨在改善变分自编码器的优化目标以提高生成质量。在SeqGAN的启发下,本论文提出了变分自编码器的一个变体,称其为序列变分自编码器,它可被视为是生成对抗网络和变分自编码器的结合,相较于变分自编码器因添加了策略梯度损失而减少了优化目标的偏差,从而在一定程度上提高了学习能力。最终由实验可得,序列变分自编码器优于基线,能生成旋律性更强、节奏变化更优美的旋律。此外,本论文还探索了脉冲神经网络应用于音乐旋律生成的可能性。脉冲神经网络被认为是第三代人工神经网络,它从底层就考虑了时间维度信息,而音乐旋律是一种时间上下文依赖性强的结构。论文中主要考虑了使用Leaky Integrate-and-Fire替换生成算法中长短期记忆网络的Cell这一方案。论文中还基于Cell提出了 Leaky Integrate-and-Fire的变体。最终变体虽取得了好于原始的效果,但终究没能优于Cell,进而在生成算法中使用Leaky Integrate-and-Fire替换Cell没能提升生成旋律的质量。文中分析了失败的主要原因。最后,为了方便研究成果的展示,本论文基于提出的序列变分自编码器,搭建了人工智能音乐创作平台。