论文部分内容阅读
哼唱检索作为基于内容的检索方式,为用户提供了一种通过哼唱部分旋律实现在音乐曲库中找到目标音乐的方式。稳定哼唱特征的提取,一直是哼唱检索技术中的研究难点,由于哼唱者的个性存在着差异性,哼唱特征表现出整体音域不同、部分音高偏移和哼唱速率不统一的特点。针对这三种人声个性化因素,如何保持哼唱信号中旋律信息的不变性,是本文的主要研究内容。本文将哼唱速率不统一作为突破点,逐步对典型的人声个性化表现进行处理,充分地挖掘出哼唱旋律信息中最本质的稳定性信息,从而改进哼唱检索系统的性能。本文的主要研究内容和成果如下:一、哼唱旋律分段关键点和段内细节特征提取的改进。采取先对旋律进行分段、再对段内特征进行深层次提取的特征提取策略,在提高哼唱特征索引效率的同时,挖掘出哼唱旋律的本质特征。旋律极值音符和部分极值音符的中点音符,是旋律信息中最稳定的音符,被称为旋律关键点,是旋律分段的基准。本文从音符间的相互关系入手,优化了关键点的提取效果,在哼唱速率不一致的条件下,保证了哼唱旋律的分段准确性。接着对分段后的段内旋律进行传统特征的提取,包括局部不均匀音域分布直方图统计特征、感知音特征和节奏特征、数理统计特征,并通过多个连续局部统计的特征提取,加强了特征之间的区分性。实验结果表明,该方法对人声个性化因素具有很好的稳定性。二、研究了一种基于深层自编码器的哼唱特征提取方法。在对旋律正确分段的基础上,选取深层自编码器模型,利用神经网络对序列数据的强大的特征提取能力,提取出最能够代表段内旋律的编码特征,作为哼唱信号最终的检索特征。这是一种将段内旋律进行多次非线性空间变换的深层次特征,代表了旋律构成最根本的特征信息。实验结果表明了该方法的有效性。最后为了继承传统特征和自编码特征的优点,联合了传统特征和编码特征共同作为最终的哼唱检索特征,并通过实验证明了该联合特征的稳定性。