基于内容和语义的音乐检索技术研究与应用

来源 :大连理工大学 | 被引量 : 4次 | 上传用户:moimon
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
随着网络和大规模数字音乐产业的发展,音乐的获取和收听以更加便捷的方式呈现在用户面前,如何从海量的互联网数字音乐数据中,找到用户喜闻乐见的音乐,成为音乐信息检索领域要解决的关键问题和主要目标。常见的音乐检索都是以文本检索为主要手段,需要大量的人工标注,大大阻碍了音乐作品的检索和传播,成为数字音乐产业发展的瓶颈问题。音乐是人类思维的产物,以物理波形为载体,传递着人们对生活的理解和主观感受,不同表达方式的音乐检索算法各异。本文以音乐信号处理和分析为基础,研究音乐内容的特征提取和选择,以减少人工标注、提高检索效率;提取音乐语义描述为检索条件,以贴近人们感知音乐的方式去检索音乐数据库,逐步克服低层的音乐特征与音乐的语义之间的“语义鸿沟”,从而获得符合用户主观体验的音乐文件。针对使用哼唱音乐片段作为查询条件的音乐检索,本文提出了以旋律作为主要特征的模型,为了准确描述哼唱音乐旋律,采用动态阈值分割音符算法得到了每个哼唱音符的基音频率。为待检索音乐数据集和输入音乐样本建立了旋律表示模型,设计遗传算法建立了哼唱音乐的逼近模板,修正了哼唱输入个体差异,从而提高了检索精确度。为了加速检索速度,设计了针对哼唱检索的局部哈希敏感算法,为音乐数据库建立了索引。该算法对MIDI音乐文件的分割方式比人工标注的方式节省了时间,扩大了处理音乐的范围,能够满足日益增长的音乐检索需求。针对整首歌曲内容作为查询条件的音乐检索,提出了基于流形排序的模型,并通过设计相关反馈改进了检索结果。使用高斯混合模型和最大似然估计,对每首音频的频谱数据进行了聚类,每个聚类的中心选为典型频谱特征。每首歌曲的典型频谱特征被当作数据点,通过流形排序算法为每个点计算排序相关分数值,用这个分数值代替传统的欧式距离相似度的度量,可以获得新的排序。同时,采用流形排序算法能够挖掘出音乐数据之间潜在的语义,且易于使用相关反馈算法来改进。实验结果证明,提出的基于流形排序的方法,比现有的距离度量方法,能得到更好的排序结果。针对音乐示例语义描述作为查询条件的音乐检索,提出了基于示例语义的模型。为了克服“语义鸿沟”问题,将音乐映射到一个语义空间。使用卷积神经网络模型获取音乐语义特征,根据语义特征为音乐产生语义标注向量。提出了损失函数调整和SMOTE算法两种方式改进了检索模型。实验表明,该模型在数据集人工标注音乐较少,且标签标注样本分布不均的情况下,仍然可以获得较好的标注结果,能够实现语义向量空间中进行检索的目标,并获得了较高的命中率。
其他文献
目的:探讨慢性阻塞性肺疾病(COPD)呼吸衰竭中医证候要素的分布规律。方法:检索近15年来COPD致呼吸衰竭的中医证候分型的相关文献报道,对病性证素与病位证素的分布组合规律进
疏风解毒胶囊具有疏风清热、凉血解毒等功效。现代药理学研究表明,疏风解毒胶囊对细菌、病毒、真菌等具有广泛的抑制作用。本文对近年来疏风解毒胶囊在呼吸系统疾病、耳鼻咽
在文学史书写实践中,虽然我们的文学史观几经变迁,但归根结底,真正起基础性作用的只有一种,那就是进化论的文学史观。进化论的文学史观压抑了"文学性"的置疑不尽吻合历史事实
<正>迟子建,女,黑龙江省作家协会副主席,一级作家。1984年毕业于大兴安岭师范学校,1983年开始写作,主要作品有小说《额尔古纳河右岸》《伪满洲国》《白银那》《清水洗尘》《
大米淀粉是一种重要的谷物淀粉,它是大米中最主要的成分,含量高达80%左右,并且大米淀粉以其独特的物理化学性质广泛应用于食品、纺织等行业。简要概述了大米淀粉的提取方法,
本试验通过采集乌鲁木齐燕儿窝种牛场2003年5月份所有泌乳奶牛的牛奶样品,使用不同超声波功率(0、100、120、140、160W)处理后,采用十六烷基三甲基溴化铵(CTAB)、十二烷基磺
为建立犬急性胰腺炎模型,本试验选用4只本地健康杂交犬作为研究对象,采用胰管逆行注射法即在主胰管注入牛磺胆酸钠与胰蛋白酶复合液构建急性胰腺炎模型。建模后,观察其组织形
进入 2 1世纪 ,法律职业教育面临诸多问题。本文透过对问题的思考 ,探讨新形势下高等法律职业教育的发展趋势 ,力图打造普通高等法学教育与高等法律职业教育以及法律继续教育
根据DSM IV、MMSE及日常生活能力量表等评判标准 ,将 90例多发梗塞性痴呆 (MID)患者随机分成针灸组、西药组 (双益平 )、针灸加西药组各 3 0例进行临床疗效对比观察。结果 :