【摘 要】
:
随着智能手机的飞速发展与广泛应用,以唱歌评测和视唱练习为主的音乐智能信息服务越来越多的被人们所使用。对于现有的唱歌应用,歌曲和乐谱通常是内置的,用户难以自由拍照导入乐谱。而现有的乐谱识别软件对于拍照导入的乐谱识别效果并不理想,因此本文拟对真实拍照场景下的印刷体乐谱的识别展开研究。本文采用乐符目标检测方法,提出了一套基于五线谱谱线感知的完整的乐谱识别方法。该方法能直接输入一张完整的拍照乐谱图片,经过
【基金项目】
:
中国国家自然科学基金委员会“钢琴教学中智能辅助技术研究”(编号:61877060)项目;
论文部分内容阅读
随着智能手机的飞速发展与广泛应用,以唱歌评测和视唱练习为主的音乐智能信息服务越来越多的被人们所使用。对于现有的唱歌应用,歌曲和乐谱通常是内置的,用户难以自由拍照导入乐谱。而现有的乐谱识别软件对于拍照导入的乐谱识别效果并不理想,因此本文拟对真实拍照场景下的印刷体乐谱的识别展开研究。本文采用乐符目标检测方法,提出了一套基于五线谱谱线感知的完整的乐谱识别方法。该方法能直接输入一张完整的拍照乐谱图片,经过五线谱检测和乐符的检测与分类处理,最终通过乐符的语义重组,按行输出音符的位置、音高与时值信息。本文的主要贡献包括:(1)针对当前公开的拍照场景下印刷体乐谱数据集缺失的问题,自建并公开了CPMS(Camera Printed Music Staves)数据集,并充分考虑了真实拍照场景可能出现的谱面弯曲、角度畸变和光线不均等情况;(2)首次提出了一种基于目标检测的五线谱谱线感知模型,它在对音符进行目标检测的基础上引入了对五线谱的检测,仅需少量弯曲乐谱的特征图参与训练,即可准确预测局部五线谱的位置,从而辅助确定音符音高,并对真实拍照场景中普遍存在的谱面弯曲问题有着良好的适应性;(3)实现了拍照印刷体乐谱识别系统,系统包括五线谱图像预处理模块、乐符检测与分类模块和乐符语义重组模块。最终本文方法在CPMS测试集上获得了99.23%的音高准确率、97.17%的时值准确率和96.59%的音符准确率,均超过目前主流的基于序列识别的方法的检测精度。同时本文相比序列识别方法,不需要拍照乐谱参与训练,具有更强的泛化性。本文针对拍照场景下谱线弯曲、乐符语义规则组合复杂、光线不均等因素导致的印刷体乐谱检测精度不理想的问题,提出了基于谱线感知的乐谱识别模型,有效地融合了谱线位置与乐符位置和分类的信息,并取得了目前最佳的音符音高与时值的识别精度。
其他文献
在工业控制领域,常用千兆以太网作为数据传输的载体,对比其他类型通信,千兆以太网具有价格低、兼容性高、速度快的特点。传输控制协议/网际协议(Transmission Control Protocol/Internet Protocol,TCP/IP)作为以太网的通讯协议族,其运输层上的用户数据包协议(User Datagram Protocol,UDP)常用作工控设计中的数据传输协议。UDP协议的优
多目标优化问题在实际应用中广泛存在,基于帕累托支配的多目标进化算法被认为是求解多目标优化问题的常用方法之一,其主要思想是基于帕累托支配关系将种群分成不同的收敛层,然后采用多样性维护策略来增强种群的多样性。然而在求解高维多目标优化问题时,基于帕累托支配的多目标进化算法的性能会显著下降,主要原因是“维数灾难”。随着目标维度的增加,目标空间急剧增长,种群中很大一部分个体都是相互不支配的,因此无法区分个体
随着互联网的发展,数据量急剧增长,个人的移动设备面临存储空间不足的问题。为了减少存储设备空间的占用,很多学者研究数据去重技术,以减轻存储设备的压力,提升存储效率。但是数据去重改变了数据的顺序性,导致系统读性能下降。现有研究通过对连续较长的数据块序列去重来缓解去重后读性能下降问题,在缓解读性能下降方面取得了一定的效果,但是对移动设备来说,如果都采用较长的数据块序列去重,搜索开销会很大,并且会降低去重
喷墨打印技术由于其广泛的兼容性和高分辨率在电子工业、生物医疗、陶瓷等增材制造领域得到快速发展。目前喷墨打印成品仍存在色彩还原度差、材料分布不均匀、打印线凸起等不稳定情况,以打印单线为例,线特征的优化仍然处于实验试错阶段,基于此,本文采用实验研究结合数值模拟方法从打印动力学和液滴融合两个方面研究了喷墨打印单线的稳定性问题。首先,讨论了打印参数和流体物性参数对打印线特征((分离液滴状、扇形线、稳定线、
随着互联网的蓬勃发展,传统的基于端到端的传输控制/网际协议(Transmission Control Protocol/Internet Protocol,TCP/IP)网络面临着诸多挑战。为应对当前互联网协议的不足,内容中心网络(Content Centric Networking,CCN)应运而生。CCN是以内容为中心且用户驱动的网络,用户只关心内容本身,而不关心存储内容的地址。为提高内容分发
服务器无感知计算环境下,应用会被拆分为一系列云函数,并以容器为载体运行。服务器无感知计算实现了细粒度的资源按需分配,这也导致计算与存储完全解耦,使得云函数之间的数据共享依赖远端存储。有状态应用会被划分为多个执行阶段,跨越执行阶段的数据共享和平台系统资源的限制导致数据读取间隔普遍较长。传统缓存策略会错误地驱逐这些数据,使得基于这类策略的远端存储方案无法同时取得高性能与低成本。通过实验发现,传统缓存策
为解决现有电信网络开发周期长、管理复杂、技术创新难等问题,欧洲电信标准化协会提出了网络功能虚拟化(Network Functions Virtualization,NFV)概念,将网络功能软件与专有硬件解耦,并将一系列虚拟网络功能(Virtual Network Function,VNF)封装成服务功能链(Service Function Chains,SFCs)为用户提供灵活、可扩展的多样化服务
随着互联网技术的高速发展与移动终端的不断普及,线上用户在快速获得信息的同时,也面临着信息冗余的问题。信息冗余问题在互联网广告领域尤为明显,将不同类型的广告尽可能精准地推送到目标用户面前,一直是算法工程师的研究目标之一。信息冗余问题的解决,在用户层面,可以节约用户时间,提高用户体验和粘性。在运营层面,可以提高广告投放效率,降低企业运营成本。本文以亚马逊电商广告数据集为基础,设计了基于用户画像的互联网
近年来,随着互联网的快速发展,激增的数据流量对当前网络架构提出了挑战。同时用户在互联网上的行为重心逐渐向信息交换和内容获取转移。为应对当前网络架构的不足,以内容为中心且用户驱动的命名数据网络(Named Data Networking,NDN)应运而生,其泛在缓存、灵活路由转发等特性为内容的获取提供了极大的便利。为充分利用NDN网络架构的优势,考虑在NDN网络中嵌入计算功能,以满足用户对新兴计算密
高度信息化的社会每天都在以一个递增的速度产生海量的数据,传统的以半导体为存储介质的存储体系正面临着巨大的存储压力,因此找到一个全新的具有更高存储密度和更长存储时间的存储解决方法成为了一个亟待解决的问题。DNA作为存储介质天然具有超高存储密度、超长存储时间和低能耗等优点,以DNA为存储介质的DNA信息存储技术为目前的海量数据的存储提供了新的解决思路。目前主流的D NA信息存储方法都是针对所有类型的文