论文部分内容阅读
哼唱检索系统,一种基于内容的多媒体检索系统,作为目前的研究热点,一直存在哼唱特征不稳定的问题,造成此问题的主要原因是人声个性化,哼唱人的音域不同、哼唱节奏不同、个别音高不准确等问题,都会导致哼唱特征不稳定。本文针对哼唱检索系统中存在的哼唱特征不稳定问题,进行了以下几点研究,旨在提取更具鲁棒性的哼唱特征:1、哼唱片段特征提取改进算法针对哼唱音频,提取哼唱音高特征后,为提高哼唱片段与MIDI的匹配度,改进了哼唱片段的特征提取算法。通过分析人声哼唱频率分布范围,哼唱与MIDI的对齐实验,对哼唱音高进行规整操作;结合乐理知识,进行音符切分操作;根据人声个性化进行半音域转换,以哼唱人的基准频率代替原440Hz的统一基准频率,使得哼唱音符特征与midi的音符特征值达到更好的匹配。以上改进方法通过实验给出算法的有效性。2、提出了一种基于局部统计的哼唱特征提取算法通过对哼唱音符序列在纵向音域分布和横向时序变化的局部统计,获得哼唱旋律的直方图统计特征。此算法在纵向音域上进行区间分布投影统计;在横向上进行音符时序变化模式直方图分布统计,最终获得纵向与横向的联合直方图特征,并加入均值、极差、方差特征。最后以4段连续子序列加整段联合直方图特征对音符分布进行描述。此算法不同于传统的以音高或音符直接作为哼唱特征的表示方法,而是将音符转化为统计特征的形式,保证了哼唱特征的相对稳定,对于不同用户在哼唱中表现的速度、音域、节奏等方面的差异有很好的容错性。最后,通过实验检验了此方法的有效性,实验数据为5000首MIDI,104首哼唱查询,应用本文提出的哼唱特征提取算法作为哼唱特征,并采用局部敏感哈希算法(Local Sensitive Hash)作为相似特征匹配算法,得到TOP1准确率为86%,TOP5准确率为92%,与原哼唱识别系统中以音符作为特征的结果进行了比较,实验结果优于原始结果。