论文部分内容阅读
随着网络和大规模数字音乐产业的发展,音乐的获取和收听以更加便捷的方式呈现在用户面前,如何从海量的互联网数字音乐数据中,找到用户喜闻乐见的音乐,成为音乐信息检索领域要解决的关键问题和主要目标。常见的音乐检索都是以文本检索为主要手段,需要大量的人工标注,大大阻碍了音乐作品的检索和传播,成为数字音乐产业发展的瓶颈问题。音乐是人类思维的产物,以物理波形为载体,传递着人们对生活的理解和主观感受,不同表达方式的音乐检索算法各异。本文以音乐信号处理和分析为基础,研究音乐内容的特征提取和选择,以减少人工标注、提高检索效率;提取音乐语义描述为检索条件,以贴近人们感知音乐的方式去检索音乐数据库,逐步克服低层的音乐特征与音乐的语义之间的“语义鸿沟”,从而获得符合用户主观体验的音乐文件。针对使用哼唱音乐片段作为查询条件的音乐检索,本文提出了以旋律作为主要特征的模型,为了准确描述哼唱音乐旋律,采用动态阈值分割音符算法得到了每个哼唱音符的基音频率。为待检索音乐数据集和输入音乐样本建立了旋律表示模型,设计遗传算法建立了哼唱音乐的逼近模板,修正了哼唱输入个体差异,从而提高了检索精确度。为了加速检索速度,设计了针对哼唱检索的局部哈希敏感算法,为音乐数据库建立了索引。该算法对MIDI音乐文件的分割方式比人工标注的方式节省了时间,扩大了处理音乐的范围,能够满足日益增长的音乐检索需求。针对整首歌曲内容作为查询条件的音乐检索,提出了基于流形排序的模型,并通过设计相关反馈改进了检索结果。使用高斯混合模型和最大似然估计,对每首音频的频谱数据进行了聚类,每个聚类的中心选为典型频谱特征。每首歌曲的典型频谱特征被当作数据点,通过流形排序算法为每个点计算排序相关分数值,用这个分数值代替传统的欧式距离相似度的度量,可以获得新的排序。同时,采用流形排序算法能够挖掘出音乐数据之间潜在的语义,且易于使用相关反馈算法来改进。实验结果证明,提出的基于流形排序的方法,比现有的距离度量方法,能得到更好的排序结果。针对音乐示例语义描述作为查询条件的音乐检索,提出了基于示例语义的模型。为了克服“语义鸿沟”问题,将音乐映射到一个语义空间。使用卷积神经网络模型获取音乐语义特征,根据语义特征为音乐产生语义标注向量。提出了损失函数调整和SMOTE算法两种方式改进了检索模型。实验表明,该模型在数据集人工标注音乐较少,且标签标注样本分布不均的情况下,仍然可以获得较好的标注结果,能够实现语义向量空间中进行检索的目标,并获得了较高的命中率。