【摘 要】
:
针对密集人群中行人躯干部位易被遮挡、小尺寸行人难以检测、检测速度慢等问题,提出一种结合多尺度反馈的行人头部检测方法用于行人检测.该方法首先以YOLOv3为网络原型,在特征提取网络中新增由两倍下采样得到的特征图以提升对小尺度行人的识别.其次采用多尺度反馈将感受野较大的分支融合到感受野较小的尺度分支上以引入全局上下文信息来提升对高密度人群的识别能力.本文在INRIAPerson,PASCALVOC2012,WiderFace等数据集上进行了实验,实验结果表明,提出的方法在行人检测的精度和速度上都有了较大提升,
【机 构】
:
西南科技大学信息工程学院,四川绵阳621010;西南科技大学信息工程学院,四川绵阳621010;特殊环境机器人技术四川省重点实验室,四川绵阳621010
论文部分内容阅读
针对密集人群中行人躯干部位易被遮挡、小尺寸行人难以检测、检测速度慢等问题,提出一种结合多尺度反馈的行人头部检测方法用于行人检测.该方法首先以YOLOv3为网络原型,在特征提取网络中新增由两倍下采样得到的特征图以提升对小尺度行人的识别.其次采用多尺度反馈将感受野较大的分支融合到感受野较小的尺度分支上以引入全局上下文信息来提升对高密度人群的识别能力.本文在INRIAPerson,PASCALVOC2012,WiderFace等数据集上进行了实验,实验结果表明,提出的方法在行人检测的精度和速度上都有了较大提升,检测精度最大提升了5.9%,检测速度最快为0.1432秒/张.
其他文献
在当今信息爆炸的大数据时代,不完全数据是数据聚类分析中一个普遍存在的问题.然而,传统模糊C均值(fuzzy c means,FCM)算法的很多缺点,如易陷入局部最优,缺乏对特征信息的充分考虑等,当出现信息缺失尤其是面对稀疏数据时,都将严重影响聚类结果.为了解决该问题,本文提出一种基于多重信息的不完全数据的FCM算法.该算法首先引入部分距离策略,给出了不完全数据的簇内距离平方和计算公式;其次,充分利用动态特征权重和簇间距离信息,有效地提高该算法的准确性;再者,运用粒子群优化算法进行聚类,借助其强大的全局寻优
图卷积网络如今越来越多地被应用于推荐系统任务中,由于该模型可以有效捕获多跳邻居的信息,因此可以一定程度上缓解数据稀疏性问题,有效提升推荐任务的准确性.但是目前大部分工作都是直接使用图卷积网络,在推荐任务上算法复杂度较高.本文提出了一个融合轻量图卷积网络和注意力机制的模型.该模型通过嵌入传播获得更多邻域的协同信息,同时利用注意力网络对不同的邻域进行区分,最后用于推荐.从而在降低算法复杂度的基础上进一步提升了模型的准确性.通过在Gowalla、Yelp2018和Amazon-book 3个不同领域的真实数据集
云平台主机资源负载预测对于提高系统资源利用率以及实现资源分配的优化至关重要,也是实现云平台服务水平协议的关键所在.有效的主机负载预测机制可促进主动作业调度,辅助主机负载平衡决策,这反过来可以提高主机资源利用率、改善作业性能、降低数据中心成本.具体来看,云平台中主机工作负载具有快速变化、波动大和长期信息依赖等特点,这使得负载预测工作变得复杂.为了解决上述预测问题,本文做了如下工作:1)实现了适合主机平均负载预测的指数分段预测模式;2)完成了主机实际负载多步预测模式;3)在2个真实云平台数据集进行实验,并采用
随着大数据和人工智能的发展,多轮对话算法受到了越来越多的关注.多轮对话回答选择是多轮对话算法中的关键问题之一,其目标是选择与输入消息和对话内容最相关的回答作为应答.近年来,深度神经网络模型在多轮对话回答选择问题上取得了较大进展.然而,如何提取对话上下文和回答中的相关语义信息并从中提取丰富的多粒度语义匹配特征仍然是多轮对话回答选择问题面临的巨大挑战.针对上述问题,本文提出了一种结合词注意力机制的多粒度循环神经网络模型MRNA(Multi-Granularity Recurrent Neural Networ
电影推荐算法依靠计算用户的偏好差异进行推荐,以解决互联网时代的信息过载问题.传统协同过滤等推荐算法主要基于用户间对相同电影的评分差异计算用户偏好的相似性.这类方法忽视了用户的评分行为是一种实际上的选择行为,即便评分不高也体现出用户对该类型电影的兴趣.针对这一问题,本文设计了基于电影类型标签选择概率的用户间相似性计算方法,并建立了以用户为节点,以用户之间的相似性为边的推荐系统的复杂网络模型,并根据上述网络拓扑结构中的节点中心性数据,进一步设计了平衡用户品味影响力函数,调整了用户协同偏好的结果,提出了基于用户
实时视频会话类业务中,如何保证用户的隐私不被泄露是一个关键问题.当用户不想将涉及自身隐私的环境细节信息暴露给他人时,支持实时视频会话的背景替换方法至关重要.传统的抠图方法虽然精度较高,但是处理速度较慢,而且需要额外的人工交互,难以满足实时视频会话类业务的要求.因此本文提出一种基于深度学习的视频图像实时背景替换方法,该方法利用区域划分模块实时的将视频图像中包含用户的前景提取出来,再利用分割模块对前景进一步进行处理,以得到更高的精度与速度,最后利用背景替换模块将前景和新的背景融合.实验结果表明,本文提出的背景
现有大部分基于卷积神经网络的图像去模糊算法,在人脸识别相关场景应用中,存在识别率提升不明显、参数量过多等问题.针对上述现象,本文提出一种基于条件生成对抗网络(Conditional Generative Adversarial Networks,DGAN)的图像去模糊算法.该算法将结合了轻量级分组卷积与改进SE(Squeeze-and-Excitation,SE)注意力机制的Group-SE模块作为生成器的主体部件,将引入了全局性稠密连接的改进DenseNet作为判别器核心,以解决去模糊技术应用在人脸识别
普通摄像设备拍摄的视频帧速率有限,从而影响观众的特殊观感体验,提高视频帧速率的后处理过程是必不可少的,视频插帧就是其中关键技术之一.视频插帧是指根据两个连续视频帧合成中间帧数据,在影视作品、体育比赛精彩视频片段慢动作回放等方面有广泛的应用.基于光流的视频插帧方法能有效解决视频中场景、目标的移动估计问题,但是其受制于光流估计的速度,无法很好地应用于实时视频任务.本文提出一种新的光流预测模型,并将其用于视频插帧任务中.首先对于输入的两张连续视频帧数据进行多次信息无损的下采样,获得不同尺度的输入数据;之后通过卷
超分辨率是指将一张低分辨率图片转换成高分辨率,在军事领域、工业领域等都有着重要作用.基于生成对抗网络(GAN)的超分变率方法,主要是根据生成对抗网络原理,由生成器生成一张伪高分辨率图片,再由鉴别器计算这张图片与真实高分辨率图片的差值,来衡量这张图片的真实程度.本文基于SRGAN(Super-resolution Generative Adversarial Network)网络主要进行了3点改进:1)引入了注意力通道机制,即在SRGAN网络中加入CA(Channel Attention)模块,同时增加网络
医学图像配准是医学图像分析的基本课题之一,具有重要的理论研究和临床诊断应用价值,可以视为参数最优化问题进行求解.作为经典的最优化算法——遗传算法已经在该领域得到了成功应用,然而,遗传算法存在着搜索空间受限、局部搜索能力较差、容易早熟收敛等不足.因此,本文提出了多种策略对遗传算法进行改进,首先结合混沌系统和频度记忆对随机数和随机个体的产生机制进行改进,进而设计一种动态的基因多样性控制器,最后模拟三系杂交水稻的育种机制来发挥杂种优势.同时,结合多分辨率策略实现了多模医学图像的精确配准.公开数据集实验结果表明,