一种融入语音识别技术的哼唱检索方法的研究

来源 :内蒙古大学 | 被引量 : 0次 | 上传用户:edcujmtgb
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
哼唱检索是一种基于内容的音乐检索方式,用户哼唱歌曲的一段,从中提取相关特征,利用音乐本身内涵,如节奏、旋律、和弦、伴奏甚至是音色,来搜索想要的歌曲,使用哼唱片段的音乐信息与音乐库中的音乐信息匹配,根据匹配相似度,得到检索结果。  目前已有一些国内网站和软件实现了音乐检索功能,但绝大多数演唱者无法检索到想要的结果,只有音准完全准确且哼唱速度稳定的专业演唱者才能得到较为准确的检索结果。因为大多数人在实际哼唱中,经常会出现唱歌添音、少音、音长不准以及音高不准等问题,导致哼唱的数据不准确,影响检索效果。  本文提出了短时特征提取法,这一方法利用了音乐中音高频率具有离散性这一特点进行研究,通过分析得出两个不同的音之间频率值相差较大,如果出现与标准音相差较小的值就是错误音,把出现的错误音通过计算进行处理,统一归到标准音高中,该方法有效解决了普通歌唱者易出现的音准较差的问题。本文在旋律匹配方面提出了与短时特征提取法相适应的二元匹配法,该方法有效避免了短时特征提取法中特征值太多导致的数据过多的问题。本文首次提出使用旋律特征之外的语音特征进行检索,对语音特征进行分析实验,尝试了文字匹配、音节匹配、声母匹配等,通过比较,使用声母匹配方法可以得到的正确率最高。对常见的易错音做了同化处理后,平均正确率达到75%。本文制作了一个100首歌曲的音乐库,该音乐库的歌曲只有主旋律,完全按照乐谱录入。最后,将旋律匹配结果与语音匹配结果相结合,进行加权计算,根据演唱者的类型赋予不同的权重来计算结果,音准较好的演唱者前五位命中率达到90%,音准不好的演唱者前五位命中率为65%。  本文介绍的方法与传统的旋律轮廓匹配法相比,音准不好的演唱者实现了哼唱检索,音准较好的演唱者的识别效率有了一定的提高。
其他文献
随着半导体工艺的进步,摩尔定律仍在延续,但Dennard缩放定律的失效使处理器设计面临功耗瓶颈,发射队列等关键部件因复杂度较高和线延迟增长而缺乏可扩展性,处理器单核的性能增长
目标检测是自动地从图像或者视频中发现并定位指定类别的目标,这项任务是计算机视觉和模式识别领域的研究热点。目标检测的研究不但对于计算机视觉、模式识别、图像处理等学科
基因测序已经成为获取基因序列信息的主要手段,是生命科学研究的前沿领域。自高通量技术测序出现以来,在测序通量大幅提升的同时,测序的成本在不断下降,目前为人类个体进行一次测
学位
近年来,随着集成电路生产工艺的进步,晶体管的特征尺寸不断缩小,使得单芯片能够集成的功能单元越来越多,产生了各式各样的复杂SOC芯片。这些SOC既需要具有较高的工作频率来完成复
得益于神经网络算法研究的进步,神经网络在许多场景下的精度表现优异,被广泛应用在图像识别、语音识别、自然语言理解、广告推荐乃至计算机围棋中。神经网络本身具有数据密集和
云计算和大数据的迅猛发展使得Java的应用更为广泛,同时也对Java的性能提出了更高的要求。传统Java虚拟机的设计已不能满足实际系统的需求。如何提高Java虚拟机的性能已成为现
基于属性的人物图像检索技术是图像检索领域中一个前沿的研究课题,在网络图像检索、个人相册管理和智能监控等领域有着良好的应用前景。传统的人物图像检索技术有基于文本和基
学位
随着互联网带宽和接入用户的数量不断增长,网络流量的特征不断的朝向复杂、多样、爆发式的增长。因此,传统的网络数据处理平台在复杂网络环境下对互联网流量进行高效的内容分析