【摘 要】
:
目标检测,作为计算机视觉领域的一个重要研究分支,旨在用边界框表示目标的位置,并给出目标相应的类别。现阶段,基于水平边界框表示的目标检测器在自然场景中的轴对齐图像上取得了优异的检测性能。但是对于遥感图像中存在的目标任意方向、密集排列、背景杂乱、尺寸小、长宽比高等现象,使用水平边界框表示目标会出现包含过多背景信息以及前景背景信息混淆的现象。这两种现象皆会降低检测器的精度。由此可见,如何设置合适的表示形
论文部分内容阅读
目标检测,作为计算机视觉领域的一个重要研究分支,旨在用边界框表示目标的位置,并给出目标相应的类别。现阶段,基于水平边界框表示的目标检测器在自然场景中的轴对齐图像上取得了优异的检测性能。但是对于遥感图像中存在的目标任意方向、密集排列、背景杂乱、尺寸小、长宽比高等现象,使用水平边界框表示目标会出现包含过多背景信息以及前景背景信息混淆的现象。这两种现象皆会降低检测器的精度。由此可见,如何设置合适的表示形式对于遥感目标检测是十分重要的。鉴于此,本文基于计算机视觉相关知识以及深度学习技术,围绕目标的紧致框表示展开研究,主要工作包含以下两个方面:第一,提出了基于多边形紧致框表示的遥感目标检测方法。近年来,目标检测领域和实例分割领域涌现出了大批优秀的算法。但是,却鲜有文章深入分析两者之间的关联。目标检测属于目标级别的任务,使用包围框表示目标,表示方式简单、易标注、计算量较小,但只能粗略的估计目标的位置信息;而实例分割属于像素级别的任务,使用掩膜表示目标,表示方式复杂、标记困难、计算量较大,但是能够精确的刻画目标的细节信息。鉴于此,综合目标检测和实例分割两项技术的特点,本工作中提出了基于多边形紧致框表示的遥感目标检测方法,使用掩膜信息生成目标的真实标注,充分利用了目标的细节信息。此外提出了一种紧致的目标表示通用方法,通过滑动水平边界框对应边上的顶点,得到目标的任意多边形表示,该方法同时适用于有掩膜标注信息以及无掩膜标注信息的数据集。为了进一步解决目标表示的边缘问题引入了偏移量因子,指导网络为目标选择合适的表示形式。在引入的计算量可忽略的前提下,以更加紧致的方式表示目标。在自然图像数据集MS COCO2017以及遥感图像数据集DOTA和HRSC2016上的各种实验均表现出较好的检测性能,验证了所提方法的有效性。第二,提出了基于单锚框特征对齐与环形平滑标签的遥感目标检测方法。现阶段,基于角度回归的两阶段任意方向目标检测器通常都存在边界问题,即由于角度预测超出定义范围而导致损失突增的问题。此外,基于锚框的单阶段方法中,带有方向的锚框的引入增加了计算量的同时,存在锚框和轴对齐特征之间的不对齐问题。综合考虑以上问题,本工作中提出了基于单锚框特征对齐与环形平滑标签的目标检测。一方面,将角度的预测由回归任务转化为分类任务,由于角度的唯一性以及有限性,从而解决角度预测的边界问题;另一方面,针对基于锚框的单阶段旋转目标检测器存在的特征不对齐问题,提出了单锚框特征对齐模块,在特征图的每一个位置只产生一个合适的锚框,并使得特征图自适应地对齐锚框,从而能够提取目标更具有判别性的特征。所提出的方法在遥感图像数据集DOTA和HRSC2016上均表现出了优异的性能。
其他文献
车辆图像精细化识别能够准确判断出图像中车辆的品牌、系列、年份,是支撑智慧交通系统的重要技术之一,能够缓解车辆保有量快速增加给交通管理部门带来的压力,使得城市治理更加高效。现有算法使用完整的车辆图像进行精细化识别,已经达到了较好的效果。但在城市交通复杂场景下车辆会被其他车辆或物体遮挡,以致于精细化识别算法所处理的车辆图像是不完整的,极大限制了算法性能。此外,利用检测算法从交通卡口摄像机拍摄到的全景图
聚类可以在没有监督信息的指导下,将数据划分成不同的簇,使得相似的数据尽可能在同一个簇中,而不相似的数据被划分在不同的簇中。“物以类聚,人以群分”,在模式识别、医学诊断、生物学等领域中存在着大量需要将数据按一定规则划分的场景。因此,聚类成为无监督学习中一个被广泛关注的问题,一些经典的方法如K-均值、谱聚类、子空间聚类也得到了广泛的应用。聚类方法尽管操作简单,适用性强,但是由于缺少监督信息的指导依然存
随着生物医学领域研究和信息技术的发展,与生物医学研究相关的文献、数据等资料呈爆炸性增长。海量的生物医学文献报道了特定生物分子(如基因、miRNA和lncRNA等)在食管癌发生与发展中的作用,例如促进或抑制食管癌发生、作为预后因子以及生物标志物等。上述信息对于食管癌早期诊断以及药物研发具有重要意义。但是这些信息分布零散,并且食管癌文本中包含相当多的特定专有名词和术语,所以在通用语言上提出的实体识别和
随着互联网技术的不断发展,越来越多的用户习惯于在各类社交平台上交流观点、分享日常,这种线上的表达方式带来了庞大的社交文本数据。作为一种流行的社交媒体表达方式,社交文本数据不规则的语言结构和语法表达方式使得针对社交文本的情感分析和观点挖掘变得十分困难,然而除纯文本外,社交文本内容还包含着情感鲜明的表情符号。表情符号作为一种特殊的符号语言包含了使用者的丰富情感,在辅助理解社交文本情感任务中起到了非常关
在科学技术飞速发展的21世纪,知识产权的保护变得至关重要,专利作为首要的保护方式,其涵盖90%以上最新的技术信息,且有诸多新型技术只以专利文献的形式公开,通过对专利文献进行知识挖掘与统计分析,能够快速了解国内外相关技术的发展现状和发展趋势,进而为国家和企业制定发展战略提供可靠的依据。近年来,专利申请和授权的数量整体上呈上升趋势。由于专利数量的快速增长,面对海量的专利数据,为了快速找到相关领域的专利
近年来,随着移动互联网的蓬勃发展,人们接触互联网越来越便利,网络上关于用户兴趣和偏好的短文本呈现爆炸式增长,都要求短文本清晰明确的传达语义,因而从短文本中学习有识别力和清晰的潜在主题是一项重要而有意义的研究工作,在文本分类、电子商务和推荐等领域得到广泛应用。然而,现有的短文本主题学习方法面临着捕捉语义相关共现短语不充分的挑战。因此,本文提出了一种基于异质信息网络的短文本主题建模学习的方法(HIN-
在如今大数据互联网时代,网络上每天都会出现大量的短文本,对这些海量短文本信息的管理成为了一个难点。短文本分类作为自然语言处理中的一项基本任务,如何准确高效的将短文本分类,从而更好地服务自然语言其他任务,一直以来都是研究的重点方向。最近,图卷积网络技术在各领域兴起并在各领域获得了不错的效果,例如在网络分析、智能推荐和生物化学领域等。图卷积网络是一种简单且高效的模型,它能够很好地捕获节点与节点之间的结
单药治疗疾病存在治疗效果差,长期服用产生耐药性和副作用等缺点,故药物组合被研究用于克服单药治疗的缺点。早期的药物组合通过医学实验技术或者临床实践获取,耗时耗力效率低,计算机技术的发展和生物信息的积累促使了计算机辅助药物研究的发展。现有研究中对药物组合的研究缺乏对关键基因的考虑且存在组合爆炸的问题,且现有疾病样本数据尤其是罕见疾病的数据不完善,面向小样本数据的疾病关键基因挖掘方法也是必要的。故本文首
随着国家经济的发展和交通基础设施的不断完善,近年来高速交通服务业迎来了巨大发展。为了满足高速交通用户的出行需求,交通服务的智能化发展是一种必然趋势。面向交通的智能对话系统应用于全终端高速交通平台,不仅能够解析客户咨询的业务意图并给出相应回复,而且能够通过一连串的对话指导用户达成某一项任务。近年来,基于深度学习的多轮对话系统快速发展,特别是研究者已经设计出了基于预训练语言模型的多样化对话系统,催生了
文本分类在自然语言处理中是一个重要且经典的问题,它是指一个文本实例对应一个关联的标签。随着数据的爆炸性增长,迫切需要对文本数据进行分类处理,以挖掘其潜在的价值,这在学术界引起了广泛的研究。目前,在深度学习中,基于图神经网络的文本分类已成为重点的研究内容。其中,图卷积网络在文本分类中取得了优异的成绩,为了缩短图卷积网络的训练时间,一些研究人员提出了线性图卷积网络来优化它。但这些图卷积模型将每一层的消