【摘 要】
:
人脸检测是计算机视觉领域中的一个重要研究方向,也是人脸识别、人脸跟踪和面部表情识别等视觉任务的基础。人脸检测在生活中的应用场景也随处可见,如公司考勤、车站安检和“刷脸”支付等。随着网络性能的提升,人脸检测方法的网络模型越来越复杂,检测精度不断提高,检测速度却逐渐降低。由于人脸检测的实际应用场景对检测精度和速度要求很高,而且应用设备的内存和计算能力都非常有限,所以目前大多数的人脸检测方法不能很好地满
【基金项目】
:
国家自然科学基金青年基金(No.61907007);
论文部分内容阅读
人脸检测是计算机视觉领域中的一个重要研究方向,也是人脸识别、人脸跟踪和面部表情识别等视觉任务的基础。人脸检测在生活中的应用场景也随处可见,如公司考勤、车站安检和“刷脸”支付等。随着网络性能的提升,人脸检测方法的网络模型越来越复杂,检测精度不断提高,检测速度却逐渐降低。由于人脸检测的实际应用场景对检测精度和速度要求很高,而且应用设备的内存和计算能力都非常有限,所以目前大多数的人脸检测方法不能很好地满足检测要求,因此,研究一个具备轻量化的网络、高检测精度和具有实时性的人脸检测方法有重要的研究意义。基于以上问题,本文以检测速度较快的单阶段人脸检测模型Retina Face为基础,提出一种轻量既高效的人脸检测方法(Light and Efficient Face Detection,LEFD)。首先,选取更加平衡的Mobile Net v3作为本文LEFD方法的主干网络,进行初步特征提取,保证较少网络参数的同时提取到丰富的特征信息;其次,在金字塔网络中融合高效的注意力模块,加强特征提取能力,从而提高网络模型的检测性能;然后,针对损失函数进行优化,分类损失使用焦点损失,解决正负样本不均衡的问题,回归损失引入更加符合人脸回归度量的D-Io U损失(Distance-Intersection over Union),不仅可以改善原Smooth L1损失的优化目标和回归指标不一致的问题,还可以解决在预测框和真实框重叠或不相交时出现的梯度消失问题;最后,在分类和回归网络中引入平衡分支,在网络训练时计算预测框和真实框之间的Io U,在推理阶段将分类得分和定位Io U的乘积作为非极大值抑制的分类置信度,有效缓解了人脸检测中分类与定位不相关的问题。为验证本文提出方法的检测性能,首先将LEFD与Retina Face检测方法在Wider Face数据集上进行对比实验,本文提出的方法LEFD在三个不同难度子集上分别取得0.953、0.927和0.833的平均精度,比Retina Face分别提高了4.6%、4.5%和9.5%。其次,模型大小只有8MB,在较低计算成本的GTX1080上检测速度达到154FPS,很好地满足轻量化网络的检测要求。此外,与优秀轻量检测模型LFFD(Light and Fast Face Detector)相比,本文检测方法在三个子集上的平均精度分别高出了4.3%、4.6%和5.3%,同时本文方法的综合检测性能也优于其他经典轻量化人脸检测器。最后通过对比消融实验,验证了本文每个改进模块的有效性。综上,本文提出的轻量化模型LEFD可以在实时检测的基础上,取得较高的人脸检测精度。
其他文献
人类拥有精确跟随他人视线的能力,这种追随他人视线的能力被称为凝视识别,这种能力可以让人们更好地理解他人的意图,甚至可以预测他们未来的行动。计算机一旦掌握这种能力,就能在多个领域(教育、医疗、智能监控、VR游戏或人机交互领域)为人类提供更方便、更智能的服务。近年来,随着深度学习的不断发展,凝视识别这一基础研究取得了一系列的突破,这无疑推动了计算机视觉的进步。虽然目前大多数凝视识别算法取得了令人印象深
目标检测任务是计算机领域中的一个重要研究分支,涉及的应用领域也十分广泛,例如,医疗影像、智能交通安全等。以智能交通安全领域为例,通过在街道各个角落安装高清摄像头,实时获取街道行驶车辆的交通轨迹,以便及时提醒驾驶人遵守交通规则,避免车祸的发生。目标检测技术已成为生活实际场景中的重要工具。目前,基于深度学习的YOLO目标检测算法系列中,YOLOv4算法在单个GPU上就可完成训练,而且使目标检测的速度和
随着科学技术和共享经济的不断发展,短期租赁服务网站越来越多。Airbnb作为著名的短期租房平台,已经成为了很多年轻人出门旅游住宿的首选。对于租房销量来说,价格因素不可忽视,但是不同于传统酒店业成熟的定价体系,Airbnb平台上租房的定价是由房东自主决定。房东需要为租房制定合适的价格来吸引更多的房客,而房客也需要了解租房合理的价格以防上当受骗,所以租房价格是一个值得研究的问题。早期对于租房价格的研究
随着消费电子产品日新月异的发展以及社会对公共安全的迫切需求,摄像头网络已经从提供静态监视的早期角色,演变为当前的能够获取大量视频信息以进行智能处理的复杂网络系统,而且功能也不再是简单的监控用途,可以为后续的研究提供资源基础,例如目标识别、目标跟踪、姿态估计等。由于摄像头网络的规模逐渐庞大,需要覆盖的区域也更加复杂,如何降低摄像头网络的组网成本及如何提升目标空间的覆盖率已成为迫切需要解决的问题。因为
跨膜蛋白是存在于生物膜上的一类特殊蛋白质,承担生物膜两侧物质和信息的传导功能,在多种重要的生命过程中发挥至关重要的作用,如物质运输、离子通道、能量传递、信号识别等。由于它们的特异性结构,目前药物市场上约一半以上药物靶点是跨膜蛋白,其结构和功能研究对药物研发具有巨大价值。然而相对于水溶蛋白,生物技术手段难以大规模测定跨膜蛋白结构,虽然近年来样本数量持续增长,但仍然远不能满足相关研究的需要。因此,采用
在所有生命活动中,金属离子借助“结合作用”通过跨膜蛋白形成的离子通道,从而调节多种生物分子的表达和激活,参与细胞信号转导,完成各种基本生物功能。由于跨膜蛋白具备其自身独特的结构和功能特性,正确识别金属离子与跨膜蛋白结合位点,对于蛋白质工程、离子运输机制以及药物设计的阐明都具有重要意义。然而,当前缺乏大规模测定跨膜蛋白离子结合作用的生物实验技术,亟待有效的计算工具为相关研究及应用提供支撑。已有的金属
近年来,随着互联网技术的发展,层出不穷的在线考试平台逐渐进入智能教育领域中。与传统的教育考试方式相比,在线考试平台有着时间上更灵活、空间上更自由的特点,不仅提高了学生的学习效率,同时也减轻了教师在教学过程中批改大量试卷的负担。然而,由于教育智能在线考试系统是从庞大的题库中随机抽取题目进行组卷,这种情况使得学生在平时练习测试的过程中存在灵活性低下、无法针对每个学生的实际掌握情况进行出题等问题和挑战。
大气压冷等离子体作为一种适用于生物治疗的技术,在医学上有着丰富而广泛的应用,包括医疗器械灭菌、口腔、肿瘤及皮肤疾病等领域。大气压冷等离子体的应用有直接和间接两种形式,二者相辅相成。大气压冷等离子体是一种很有前途的皮肤病治疗技术,但仍需要进一步的探索和研究。我们总结了大气压冷等离子体在皮肤科中的直接和间接应用并展望,为等离子体医学的发展方向提供参考。
问答(Question Answering,QA)是自然语言理解中具有挑战性的任务,近年来备受研究人员关注。目前大多数关于问答的研究都是根据单个文档甚至单个段落来回答问题,即问题的答案往往来源于单个文档或者单个句子,也称之为单跳推理问答。多跳推理问答相对单跳推理问答来说是一个更具有挑战性的任务,它要求模型能够对多个文档和问题之间的关系有深入的理解,即需要模型从文本的不同部分收集信息来回答问题。这就
人脸表情可以有效地表达人的情感,是一种可以最直观传递人情感状态的非语言信号。在计算机与人工智能快速发展的背景下,基于深度学习的人脸表情识别技术在计算机视觉领域中发展迅速,并在智慧康养、人机交互等领域取得了众多应用成果,逐渐成为学术界和工业界研究的热点。然而,以往基于传统深层网络的表情识别研究主要利用单一面部表情线索信息,当面部表情被遮挡、图像质量不高时,传统方法的性能往往较差。考虑在真实场景中,人