基于动作语义识别的背景音乐匹配系统的研究

来源 :科教创新与实践 | 被引量 : 0次 | 上传用户：zjqzc

【摘要】

：

【作者】

：

杨睿王昊宇刘欢娴张琳杨宇萌

【出处】

：

科教创新与实践

【发表日期】

：

2021年27期

下载到本地 , 更方便阅读

下载此文赞助VIP

声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架

论文部分内容阅读

　　摘要：随着自媒体短视频行业的兴起，视频配乐所涉及的问题也越来越突出，尤其舞蹈类短视频中背景音乐与舞蹈动作千篇一律的情况常常出现。为解决这一问题，本文基于动作语义提取方法，实现对视频中人物关节点的跟踪和动作语义的提取，并利用搜索引擎得到背景音乐，为自媒体短视频背景音乐与舞蹈动作的多样性做出了贡献。
　　关键词：人工智能;动作识别;语义研究;自动配乐
　　1、绪论
　　通过人物的表情、动作、语言等识别人物的情绪状态是机器视觉中的热门领域，早在20世纪90年代美国麻省理工学院就有相应研究。
　　目前对于表情、语音识别技术的研究相对成熟，而动作识别还只是新兴的研究方向。动作识别已被尝试应用在众多现实场景中，如机器人视觉、人机交互、智能监控及体感游戏等，在人们生产生活中发挥了巨大的促进作用。
　　舞蹈类短视频配乐领域主要有三个亟待解决的问题：如何从视频中识别人体运动，如何通过运动特征识别人类动作语义，以及如何将动作语义转化为高层语义并用搜索引擎找到音乐。
　　2、问题分析及系统设计与实现
　　2.1问题分析
　　在基于动作语义识别的背景音乐匹配系统研究中，主要工作是从运动视频中提取动作特征、构建动作语义集合并建立动作与动作语义之间的映射关系模型，实现从运动视频中识别人的动作信息。
　　首先，从静态姿态特征和动态运动特征两方面提取特征数据;然后，根据当前人类情绪识别领域和行为心理学领域研究成果，本文构建了包含“开心”、“愤怒”、“悲伤”、“恐惧”和“中立”这五种动作语义的语义集合。并通过引入“不确定”的识别结果，为后续进行语义识别提供便利。
　　当完成舞蹈视频的语义分析后，将获得的动作语义进行简单变换并通过搜索引擎找到与该视频匹配的音乐，从而完成配乐功能。
　　2.2系统设计与实现
　　智慧配乐师功能包含舞蹈语义识别和背景音乐匹配两部分，具體设计如图1所示。
　　下面详细介绍各功能的原理及具体情况。
　　（1）舞蹈语义识别功能
　　①提取人体二维轮廓
　　帧间差分法作为最常用的运动目标检测方法之一，其基本原理就是采用基于像素的时间差分在图像序列相邻的两帧或三帧之间，通过闭值化提取出场景中的运动区域。
　　我们将相邻帧相减得到差分图像，在保证环境亮度变化不大的条件下，选定一个阈值，根据像素值变化与阈值的大小关系对差分图像二值化。利用帧间差分法更新速度快、算法简单、计算量小等优点，得到人体二维轮廓。
　　②定位人体关节点
　　人体被看成是由骨骼及关节点构成的刚性系统，骨骼的位置由关节点决定，因此人体运动可以用关节点表征。
　　在以往的研究中，手动标定视频第一帧的方法虽然简单易行，但在面对大量未知数据时并不可行。为避免人工定标浪费时间，我们根据医学人体比例约束，实现自动定位关节点的效果。
　　③光流法关节点跟踪
　　光流法常用来跟踪点的运动，光流的变化能够反映图像灰度在时间上的变化与景象中物体结构及其运动的关系，其中LK光流算法在跟踪人体各关节点的运动方面表现更好。
　　光流法通过特征匹配求关节点处的流速，利用计算量小、快速灵活的特点，能够快速检测到运动对象。
　　④动作特征的提取
　　在提取人体动作过程中，我们将人体动作特征分为两类：静态姿态特征，包含重心倾斜状态、头部弯曲度、头部弯曲度、肘部弯曲度及胸腔弯曲度;动态运动特征，包含重心移动速度与关节点相对速度。
　　动作速率一定程度上反应人的情绪信息，由于肩部节点、肘部节点和手部节点相对于重心变化较为独立，反映信息较为明显，可作为关节点速率的主要计算依据，用关节点相对运动速率与重心绝对运动速率的比值作为动态运动特征参数。
　　⑤动作语义识别
　　在获取特征数据后，分别计算出对应的语义，再根据映射关系得到最终的语义识别结果。使用雷达图展现各语义所占概率，通过选取单帧雷达图中概率超过 27%的前两种语义作为代表语义，用概率值作为对应权重，统计有效帧在各语义中的加权平均值，最终得到输入视频的语义雷达图。
　　（2）背景音乐匹配功能
　　在多媒体的检索中，最自然直接的办法就是用人类的语义概念进行检索，通过语义方式的搜索达到比视觉底层特征更直接和更有效的效果。经过动作特征提取、构建动作语义集合、建立动作与动作语义之间的映射关系模型最终分析得到人们日常思维中的高层语义概念——动作语义。通过舞蹈语义识别部分得到结构化标签，利用搜索引擎实现背景音乐的搜索查找，最终完成配乐功能。
　　图2是基于动作语义识别的背景音乐匹配过程图。
　　3、系统创新点
　　“智慧配乐师”以舞蹈动作意义为切入点，利用人工智能技术寻找最佳配乐，体现了如下创新点：
　　（1）利用人工智能技术挖掘舞蹈运动特征数据。通过帧间差分法实现人体初步识别，再根据医学领域人体结构比例约束标定必要关节点，并使用光流法挖掘出特征数据。
　　（2）构建特征映射模型获取舞蹈动作语义。通过对视频数据的分析，构建出特征数据与动作语义之间的映射模型，获得视频中舞蹈动作语义。
　　（3）依据动作语义为舞蹈片段分类。利用语义雷达图选取单帧中概率超过预设阈值的前两种语义作为该帧的代表语义进而确定舞蹈片段的节奏和风格。
　　4、结语
　　本文通过研究基于舞蹈类短视频的动作语义提取方法，实现了对视频中人物关节点的跟踪，并计算得到运动特征，再根据已构建的语义映射模型提取动作语义，最后利用搜索引擎得到背景音乐。由于个体性差异，语义的肢体表达方式也有不同，如何根据个体性差异进行针对性的识别是未来研究的一个难点。目前，语义识别正向着多信号融合的方向发展，人体面部表情与肢体动作相结合的多信号语义识别系统将为人机交互领域的应用带来更多可能。
　　参考文献：
　　[1]刘艳，刘鼎家，韩智攀.基于动作识别的情绪提取方法研究[J].计算机工程，2015，41（05）：300-305.
　　[2]门鑫. 基于深度学习的视频内容识别和搜索算法研究[D].北京邮电大学，2019.
　　课题项目：本文为沈阳师范大学校级大学生创新创业训练计划资助项目《基于人工智能动作语义识别的背景音乐匹配系统——“智慧配乐师”》（项目编号：202113066）成果.

其他文献

基于SCR的柴油机排放NOx解决方案研究

摘要：柴油机排放的氮氧化物主要是由一氧化氮和二氧化氮组成，这两种类型的氮氧化物对环境和人体健康都具有较大的危害性。目前主流的NOx的净化措施主要有：机内减排技术（以废气再循环技术（EGR）为代表）、排气后处理技术（以选择性催化还原技术（SCR）为代表）。SCR技术为目前较普遍的应用技术，文章对主流SCR技术进行分析和研究，得出不同SCR技术的优势。　　关键词：柴油机排放;SCR　　1、概述　　SC

期刊

技工院校教师职场工作误会的多维度剖析

摘要：在职场工作中，由于各方面因素的影响，误会的产生是不可避免的。而误会的存在会对后续工作的开展造成影响，因此是必须要消除的。本文从教师职场工作的角度，分析误会产生的原因，并提出消除误会的解决方案。　　关键词：职场工作;误会;解决方案　　“误会”是指“误解”，“错误的理解”--据汉语词典。　　在人们的生活、工作中，误会是经常会发生的事情，会导致人和人之间的隔阂、事情的不顺利。因此，误会的消除是十分

期刊

大数据下医院财务会计向管理会计转型策略探究

摘要：现如今人们对医疗服务的质量要求越来越高，因此医院要从各个方面进行改进，加大资金投入。医院的资金管理来自于财务部门，由此可见财务部门对医院的重要性。在信息技术的支持下，各个行业都利用大数据为自己的发展服务。在大数据的背景下，财务会计向管理会计转型不仅符合各类医院的实际需要，而且也具备了外部条件支撑。信息技术的发展为数据的处理提供了一个良好的平台，在这个平台上，大大加快了数据处理的速度。管理会计

期刊

档案管理人员提高管理效果的策略探讨

摘要：档案管理成为了企业发展的一部分，在发展中也应顺应时代发展，需要树立好新观念，确保符合管理实际。且企业档案管理中，由于该工作与其他工作特点不同，在遵守管理规则或者是参与管理中时，也应该充满活力。且由于管理中并不只是单纯局限于某一工作人员或者是管理部门，更加需要在管理中企业全员参与，共同促进管理效果的提升。那么在管理中，发挥主要作用的便是档案管理人员，那么在参与管理时，也挺好积极顺应发展需求，积

期刊

会计电算化存在的问题及发展措施

摘要：近年来，会计电算化逐渐被应用与企业的财会管理当中，并成为提升工作效率与信息质量的关键，而致力于未来发展，笔者认为，必须对其在企业中的应用，继续进行探究，寻求不足之处，并加以解决，才能促进其功能的发挥，推动企业的继续前行。　　关键词：会计电算化;发展;措施　　引言　　新世紀之后，我国的电子信息技术得到了快速发展，并逐渐与各行业相融，成为推动行业前行的关键，而在企业发展之中，亦是如此，尤其是财会

期刊

关于我国生态文明建设的研究

摘要：当前我国的自然生态体系建设就是一种促进了我国人与自然、人类经济社会和谐共处、全面健康发展的重要形式。“大力推进生态文明建设”被中央国务院政府列为对推动我国事业发展的一项重大重要战略性改革决策，全国社会各界爱心人士，为大力推动我国的现代生态社会文明体系建设及其事业持续发展进步做出了巨大的努力和突出贡献。在社会主义现代化的今天更应努力实现人与自然和谐相处，共同建设美丽中国。　　关键词：生态文明建

期刊

关于绩效评价的学校财务预算管理研究

摘要：随着现在我们经济的发展，学校也不再以学生和老师进行学习和科研为主要目的的事业单位，而是逐渐向科研和经营活动相结合这个方向发展。同时社会上自主办学的单位也越来越多，仅仅依靠政府进行拨款来促进学校的发展已经不符合学校的发展模式。现在学校多样化的发展模式，势必需要学校投入更多的资金，如何把学校的财务进行合理的管理安排是促进学校全面发展的基础。在此，本人将以学校在财务预算管理中存在的问题为出发点，结

期刊

探究互联网背景下的初中英语教学改革策略

摘要：在当今时代，教师在教学过程中合理地利用互联网，就能够解决过去的有时间和空间限制的教学难题。其能够有效地丰富学生获取知识的途径，满足学生的实践进修需求，优化讲授资本，推进初中英语讲授变革的开展。本文针对互联网背景下的初中英语教学改革策略展开研究。　　关键词：互联网;初中英语;教学改革　　伴随着科学技术的开展，互联网技术被人们广泛地使用在他们的生产和生活当中，同时也为讲授变革的開展带来了新的生机

期刊

基层畜牧兽医防疫工作重点初探

摘要：随着社会经济的飞速发展，人们生活水平得到了空前的提升，其中动物性食品已成为人们日常饮食结构中不可或缺的一部分。俗话说“民以食为天，食以安为本”，其中动物性食品的健康安全对整个社会发展和人民的生命健康有着十分重要的意义。要确保动物性食品的健康安全，基层的畜牧兽医站防疫工作是关键的一环，畜牧兽医站防疫是确保健康安全动物性食品准入市场的重要关卡。总之，做好动物防疫工作对于社会经济发展和人民的生命健

期刊

新疆乌苏市国家重点公益林管护初探

摘要：乌苏市对国家重点公益林的管护工作有利于合理开发并保护森林资源，能够促进当地经济的可持续发展，为经济社会的发展提供了基本的生态保障。在重点公益林的管护工作存在的问题，本文对这些问题进行了分析并给予相关对策和建议。　　关键词：乌苏市重点公益林;管护工作;问题;建议　　一、乌苏市公益林概况　　乌苏市位于新疆维吾尔自治区西北部，天山北坡，准噶尔盆地西南缘;地处北纬43°28′33″—45°18′28

期刊

基于动作语义识别的背景音乐匹配系统的研究

其他学术论文