基于改进的YOLOX手势识别算法及其轻量化研究

来源 :中南财经政法大学 | 被引量 : 0次 | 上传用户:yuhy07
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
手势作为人类一种原始的交流方式,其特点是宜表达。无论是在人机交互还是在虚拟现实等领域都有着十分重要的研究价值。近年来随着深度学习的浪潮,各种基于深度学习的图像、视频处理技术的手势识别模型被提出,其中不乏一些在某些具体应用任务中效果显著的模型。相较于传统识别模式,深度学习方法可以自动且高效地提取图像特征,极大地提高了识别的准确率。然而,主流的识别算法为了达到更高的精度,往往有着极为深层的网络结构和极为复杂的参数,这导致了网络模型参数过多,训练时间过长、对部署计算机硬件的性能要求过高等问题,这样的缺陷导致很多优秀的网络模型难以应用到小型或移动设备上。所以一个能应用在小型设备上的、能够识别手势任务的轻量化模型成为业界的热点问题。针对以上问题,本文以YOLO模型系列中最新的YOLOX模型为基准,提出Shuffle Net V2-YOLOX的轻量化手势识别算法,力求在速度、精度和模型大小之间达到平衡。主要贡献内容如下:(1)为了选取最优基准模型,本文首先选取了YOLOX和SSD模型;为了控制参数量,使用Mobile Net v2替换SSD算法模型的特征提取主干网络;通过实验对比YOLOX-S、YOLOX-Tiny、YOLOX-Nano、Mobile Netv2_SSD、Vgg_SSD五个算法模型后表明,YOLOX网络结构相较于SSD网络结构有较好的精度和以及较低的参数量和计算量。经过详细分析与实验验证,使用YOLOX网络能很好的平衡模型准确率与参数数量。故本文选择YOLOX进行改进优化。(2)考虑到轻量化的需求,YOLOX-Nano已经是在权衡精度后参数量最小的网络模型,但仍不满足于小型设备的部署。为了将网络模型的FLOPs控制在0.5G以内、参数量控制在0.2M以内,本文提出一种高效的Shuffle Net v2及YOLOX集成网络手势识别技术。为解决传统YOLOX主干网络CSPDark Net参数量大、计算内存高的问题,引入一种轻量化网络Shuffle Net v2代替原主干网络,缩减了网络预测头数量,最后引入Focal Loss优化了分类损失函数。实验结果表明,本文改进的Shuffle Net V2-YOLOX网络综合性能是优异的,在不影响准确率和召回率的情况下,参数量和FLOPs均有明显的下降,满足了小型设备的部署。
其他文献
随着信息技术的快速发展,人们同时扮演着信息的消费者和生产者两个角色。作为一种从海量数据中快速发现信息的技术手段,推荐系统逐渐成为解决信息过载问题的主要方式之一,被广泛应用于电子商务、音乐/视频服务、社会媒体、广告策略等众多领域。面对推荐场景中日渐丰富的多模态信息,传统推荐方法无法有效挖掘用户深层次的偏好特征,很大程度上不能满足用户个性化推送的需求。近些年,研究者们将用户评分、评论、浏览等数据进行特
学位
近年来,Web of Science、Google Scholar等文献数据库不断更新完善,为研究者们提供了丰富的文献参考。文献量大、研究因素复杂成为了许多研究领域的一个特点。研究者在研究初期需要快速准确地对大量文献内容进行梳理与科研统计,了解研究领域的发展趋势和方向,以开展新研究。其中,研究两代人社会地位变化的“代际流动”(Intergenerational mobility)领域,文献量日益增
学位
在我国大力推行建设数字强国的背景下,将计算机技术与金融知识相结合,分析处理海量数据并从中提取规律,从而构建量化交易策略,已经成为许多投资者普遍选择的投资方式。在人们的物质生活得到了极大提升之后,越来越多的人参与到股票投资之中,程序化的股价研究既能规避投资者因情绪变动而出现的主观误判,又能在庞大的数据中挖掘出人力无法发现的隐藏规律,因而被众多专家学者所关注。投资者希望能够制定出一种智能化交易策略,从
学位
在互联网时代,类似今日头条这样的在线新闻分发平台吸引了数以亿计的用户。由于在线新闻服务的便捷性和时效性,许多用户的新闻阅读习惯已经从传统报纸转向数字新闻内容。那么在信息爆炸时代,平台如何为用户过滤筛选出用户有阅读欲望的新闻成了新闻推荐领域研究的重点任务。协同过滤算法和神经网络模型是新闻推荐领域研究的两大重要方向。然而,现有的很多方法大都忽略了新闻隐式信息是新闻的重要组成部分,对新闻表示的完整性和准
学位
大规模在线开放课程(MOOC,慕课)这一概念自2008年被提出,2012年开始在世界范围内兴起。慕课的诞生旨在为每一位学习者提供平等且高质量的学习资源,特别是在新冠疫情的大背景之下,慕课更是凭借其先天的优势成为了世界各国大力推广的教育方式。但是慕课由于缺乏强约束性,其高退课率以及低通过率也广为学界所关注。越来越多的研究者开始着手研究如何提升慕课的留存率以及通过率,其中,针对慕课平台学习者群体中那些
学位
随着信息爆炸时代到来,越来越多的人难以在短时间内找到自己需要的资源。尤其是在蓬勃发展的科学研究领域,论文数量呈指数级增长,这给快速获取与自己研究领域密切相关的论文带了巨大的困难。通常,在研究生教育期间,为了更好的梳理自己研究方向的发展脉络,研究生要花费大量的时间和精力寻找论文。因此,个性化的论文推荐方法被研究生们所期待。近年来,随着社交网络的快速发展,基于社会关系规则和网络理论的推荐方法在一定程度
学位
网络技术飞速发展的今天,数据成为创新和增长的重要驱动力,它可以帮助企业了解和改进业务流程,从而制定适当的发展战略,此类数据很多以某种固定结构存储在关系型数据库中,用户通常需要通过相关系统的交互界面完成数据检索,而自然语言作为人类最常使用的表达方式,具有简单、易用的优点。在此背景下,通过自然语言完成对结构化数据的检索,不仅为用户提供了一种新颖便捷的检索方式,还能提升数据的查询效率。自然语言理解NLU
学位
在当前信息技术高速发展的情形下,各行业领域都产生了海量的数据,而这些数据往往都是存储在结构化或半结构化的数据库中。对于关系型数据库中数据的获取需要使用SQL语句来执行查询操作,但是这些编程语句的使用增加了非技术人员分析和使用数据的难度,开发技术人员也无法将所有可能用到的查询语句封装成接口供非技术人员使用。因此为了快速便捷地从数据库中准确获取数据信息,自然语言处理领域的研究人员尝试使用深度学习模型来
学位
随着中国证券市场的快速发展,证券市场日益复杂,传统基于基本面分析的方法在股市中获利越来越困难。伴随着计算机的软硬件快速发展,基于数学和计算机的量化交易逐渐走进了人们的视野。量化选股和量化择时是量化交易两个比较重要的方向,量化选股有很多种实现方式,其中使用较多的是多因子选股,但是近年来的多因子选股论文都把因子与股票未来收益之间的关系看作是相同的,而现实中因子与不同类别股票未来收益的关系不一样。所以基
学位
随着网络信息技术的发展,相比于传统的购物方式,人们更加热衷于网络购物,并且喜欢在京东、淘宝等购物网站上发表评论。同时,中文文本不再是在线评论情感表达的唯一载体。表情符号渐渐兴起并且快速演变,受到了广大网民的青睐。网络购物中,在线评论扮演着重要角色,对用户的购物决策产生重大的影响。因此,对在线评论进行情感分析,有利于商家掌握用户的真实评价,改善产品质量,给客户提供更加舒适的服务。关于在线评论的情感分
学位