基于卷积神经网络和注意力机制的人群计数算法研究

来源 :哈尔滨工业大学 | 被引量 : 0次 | 上传用户:wuliaocanglang
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
随着深度学习的发展,基于卷积神经网络(Convolutional Neural Network,CNN)模块和注意力机制的深度学习算法成为工业界与学术界的研究热点,其为不同领域中的任务都带来了新的解决方案。人群计数作为计算机视觉领域的研究热点,亦是如此。但现有算法所设计的CNN模块对小尺度目标不友好,也难以高效地提取多尺度特征,且所得特征图较为模糊;相应的注意力机制不够完善,仅关注空间维度的注意力,且构造方式较为复杂,低效。而且,现有工作聚集于监控摄像头所拍摄的普通场景,却忽视无人机所拍摄的航拍场景。而两大场景各自具有鲜明的特征,需进行针对性的设计。于是,本文从CNN模块和注意力机制两方面入手,分别针对航拍场景和普通场景设计相应的解决方案。对于航拍场景,本文设计了轻量双任务网络(Lightweight Dual-task Network,LDNet)模型。具体地,在LDNet中构建了高效膨胀卷积模块,在宽度方向上堆叠膨胀因子不同的膨胀卷积,相比于现有方法可有效解决栅格化现象以及特征提取不高效的问题。同时,针对性地设计了轻量的特征聚合模块来精细化特征图。并且,针对复杂的背景信息,提出了通道级注意力机制和位置注意力机制,去除了冗余的背景信息,令模型更加关注前景人群的计数,保证速度的同时,进一步提升人群计数的准确度。实验证明,本文设计的LDNet模型具有轻量化的结构以及较高的准确度。对于普通场景,本文设计了全注意力人群计数(Crowd Counting with Transformer,CCTrans)模型。具体地,在CCTrans中基于全注意力网络(Transformer)构建全局注意力来进行上下文建模,以捕获普通场景中存在的尺度差异和密度差异,有效简化网络流程。并针对性地提出了多尺度膨胀卷积模块(Multi–scale Dilated Convolution,MDC)和金字塔特征聚合模块(Pyramid Feature Aggregation,PFA),可有效处理所捕获的尺度和密度差异来回归准确的计数结果,并精细化特征图。同时对损失函数进行优化,提升模型预测的稳定性。实验证明,本文设计的CCTrans模型具有简化的网络流程,且在多个数据集上都有较好的表现。本文从CNN模块与注意力机制入手,分别提出适合航拍场景和普通场景的人群计数模型,有效地简化了网络流程,并提升人群计数的准确度。
其他文献
研究目的观察2型糖尿病早期肾病患者使用利拉鲁肽、达格列净及二者联合治疗后血糖、血压、身体质量指数、血脂和肾脏相关指标的变化。研究方法将120例血糖控制不佳的早期2型糖尿病肾病患者,分为达格列净组、利拉鲁肽组、达格列净联合利拉鲁肽组和对照组(不使用达格列净或利拉鲁肽),每组各30例。分别检测治疗前及治疗24周后空腹血糖(FBG)、餐后2h血糖(2h PG)、糖化血红蛋白(Hb A1c)、收缩压(SB
学位
目的通过分析我院维持性腹膜透析患者与慢性肾脏病非透析患者资料,了解患者肠屏障功能及胃肠道症状情况,同时探讨腹膜透析患者及非透析患者外周血中性粒细胞淋巴细胞比值(neutrophil-to-lymphocyte ratio,NLR)与肠屏障功能的相关性。方法选取2016年9月~2020年8月安徽医科大学第二附属医院肾脏内科规律随访的腹膜透析(peritoneal dialysis,PD)患者(PD组
学位
人工智能技术在近几年得到快速发展,问答系统是其中的一个重要的组成部分,并在工业界受到广泛关注。随着计算机科学与技术的发展,文本、声音和图像等媒介不再是作为单一的个体和人类交互,而是相互组合一起,组成一种以多模态数据为载体的新型的交流方式。因此,多模态视觉问答任务成为了新的研究热点。给定一个问题和对应的图片,视觉问答系统旨在正确回答该问题。虽然目前的视觉问答模型已经有了较高的回答准确率,但是往往会因
学位
目的探讨维持性血液透析(hemodialysis,HD)和腹膜透析(peritoneal dialysis,PD)患者冠状动脉钙化(coronary artery calcification,CAC)的危险因素以及甘油三酯葡萄糖乘积(triglyceride-glucose,TyG)指数与CAC的相关性。方法纳入2019年10月至2021年3月于安徽医科大学第二附属医院肾脏内科行维持性透析治疗的患
学位
背景和目的慢性肾脏病(CKD)是一种严重危害人类健康的疾病,其患病率呈逐年上升趋势,CKD患者普遍存在认知功能障碍,主要表现为在注意力、语言、概念形成和推理、记忆、执行功能及整体认知测试方面的表现显著降低,认知功能减退降低CKD患者生活质量、增加死亡风险。维生素D是一种具有丰富生物学特性的脂溶性维生素,有研究发现维生素D水平降低和CKD认知功能减退相关,但缺乏有关维生素D对CKD动物认知功能影响的
学位
我国的证券交易市场诞生至今已走过30多年历程,产生了海量交易数据。伴随人工智能在证券投资领域的应用,如何提升量化数据处理效率,帮助投资者实现投资个性化与理性化成为具有潜力的研究方向,自动投资方法应运而生。多因子自动投资策略是近年来兴起的基于多因子择股的自动投资策略,也被略称为多因子策略。目前,多因子自动投资策略的调整需要投资者依据个人偏好以及对市场的看法手动进行,往往效率低下、易受主观因素干扰,基
学位
目的通过分析脑脊液二代测序结果与临床诊断不一致的原因,探索简单的的二代测序报告评估流程。背景中枢神经系统感染包括脑膜炎、脑炎、脓肿和脊髓炎,是由各种感染原引起的。中枢神经系统感染性疾病具有较高的发病率和死亡率。中枢神经系统感染的临床表现是非特异性的,在超过50%的中枢神经系统感染患者中,无法确定特定的病因。宏基因组下一代测序(m NGS)是一种很有前途的传染病诊断方法,是一种非先验、无偏置的检测方
学位
目的系统性红斑狼疮(Systemic lupus erythematosus,SLE)患者体内存在免疫系统的缺陷,使其可能较健康人群更容易出现感染,同时SLE主要治疗药物是激素以及免疫抑制剂,这些药物可以直接抑制免疫细胞的活性,尤其是针对淋巴细胞的作用十分突出,在控制病情同时不仅降低了患者的免疫防疫功能,同时让感染的风险持续上升。感染是目前导致患者死亡的重要因素。通过分析淋巴细胞亚群和免疫球蛋白水
学位
人脸性别识别是人脸属性识别领域最广泛应用的任务之一。它的核心工作就是利用人脸图像进行人脸性别属性的判定。随着深度学习领域的快速发展,在该任务上,基于卷积的深度神经网络已经达到了人类的识别精度。但是在低计算力的嵌入式系统上,神经网络在精度和速度上仍然难以达到可应用级别。为解决上述问题,本文针对人脸性别分类的特点,设计了对应的神经网络模型轻量化方法,提出了针对性别分类拓展的批块子类知识蒸馏算法和性别分
学位
目的拷贝数变异是人类基因组的共同特征,在进化中发挥重要作用,促进种群多样性、某些疾病的发展,并影响宿主微生物群的相互作用。与单核苷酸多态性相比,拷贝数变异包含的核苷酸总数更多,出现的频率也更高,越来越多的人认为拷贝数变异是数量遗传变异的重要来源。我们探讨了FCGR3A(免疫球蛋白G Fc段受体IIIa)和FCGR3B(免疫球蛋白G Fc段受体IIIb)基因拷贝数变异与乙型肝炎病毒(HBV)感染后不
学位