基于音频的数字媒体中乐器识别方法研究

来源 :哈尔滨工业大学 | 被引量 : 0次 | 上传用户:youyou306
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
乐器识别是音频检索的一个重要领域,它既涉及声源的声学属性,也涉及到人耳对音频的感知心理,是深入研究音频检索的基础。乐器识别在科学研究和实际应用中有着重要意义。本文的工作主要是对基于音频的数字媒体中乐器识别方法进行研究,主要有以下几个方面的工作:首先对乐器识别中的特征进行了研究:在相同的测试条件下,研究了LPCC和MFCC这两种特征的优劣,通过实验发现LPCC和MFCC这两种特征均适用于中国古典乐器识别。其次对乐器识别中的分类器进行了研究:考虑到高斯混合模型(GMM)的性能较好、复杂度小、方法简单,所以本文中选用GMM作为乐器的模型,并采用K-均值聚类算法初始化GMM,EM算法训练GMM。另外考虑到传统EM算法有个显著的缺陷,就是收敛速度比较慢,有时会收敛于局部最小值,而不能得到全局最优解,基于此,通过研究发现EM算法的收敛性与高斯混合分布的重叠度有关,因此本文结合高斯混合分布的重叠度对EM算法的收敛条件进行了判断,并在中国古典乐器识别系统中进行了验证,通过实验发现EM算法结合高斯混合分布的重叠度后能够明显提高识别率。再次对基于自适应谐振思想的乐器识别方法进行了研究:将自适应谐振思想引入到乐器识别系统中,这样系统在运行时,不仅能够对测试乐曲进行识别,而且能够在识别旧乐器的同时发现新乐器,这就使得该系统有了学习能力,能够不断的发现新乐器。最后对乐器识别系统进行构建:在系统构建完成的基础上,研究了不同测试乐曲单位长度对识别率的影响情况以便证明系统的正确性和可靠性;研究了测试乐曲的最佳帧长;在相同的测试条件下,研究了高斯混合模型的阶数对系统识别率的影响,分析了阶数过大或过小对系统带来的负面影响,并结合实际情况进行了选择。
其他文献
煤炭开采业作为高危行业,煤矿安全事故时有发生,威胁着矿工的人身安全,同时给企业也带来了巨大的经济损失。煤矿安全监控和通信系统作为提高煤矿生产安全的有效途径和手段,在
摘要:随着我国铁路跨越式大发展,铁路运输装备从传统的机车车辆向动车组转变,对车地通信的实时性和准确性都提出了更高的要求。利用计算机仿真的手段,来模拟动车组的实际运行
随着管理信息系统(Management Information System, MIS)的不断变化和规模的日益扩大,如何有效地控制系统的开发周期,开发成本以及软件质量,成为了开发过程中亟待解决的问题
随着信息化大潮的来临,网络攻击技术呈现出多样化,黑客攻击客户端已成为威胁计算机安全的最大隐患。目前计算机信息的安全问题很难单靠软件的方法解决,为此可信计算平台联盟T
随着Web2.0时代的到来,互联网的迅速发展,人们对网络的依赖越来越多。尤其是“互联网+”的提出,各大企业均响应号召,实施转型,各行各业每天都能产生海量数据,且呈爆炸式增长
随着世界信息技术的迅猛发展,信息量也呈几何指数增长,如何从巨量、复杂的数据中获取有用的信息,使数据挖掘技术成为了近年来信息技术研究领域的热点问题。数据挖掘是一种包
由于自组织映射(Self-Organizing Feature Maps, SOM)算法和粒子群优化(Particle Swarming Optimizing, PSO)算法拥有着概念简明、实现方便、收敛速度快、参数设置少,自组织
归纳推理是人脑最重要的高级思维功能之一,是从特定的事件、事实向一股的事件或事实推论,将知识或经验慨括简约化的过程,其结沦超出前提规定的范围。逻辑学、认知心理学、人工智
学位
中国是肝脏疾病的重灾区,肝硬化的死亡率占癌症死亡率的第二位。B超是肝脏检查的重要手段,B超检查的缺点是诊断结果受医生的主观因素影响较大。基于肝脏B超图像的计算机辅助
随着计算机技术及医学技术的进步,当前医学相关的数据正在呈“爆炸”式增长。大量的医学数据以文本的形式被记载在各种医学文献中并存储于数据库,如中医药文献库和MEDLINE数