分布式数据分层抽样技术及其在目标检测领域的应用研究

来源 :国防科学技术大学 | 被引量 : 0次 | 上传用户:sdwudipaopao
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
数据抽样是一种从样本总体中选择部分有代表性的个体进行分析的推论统计方法。通过对抽取样本的属性进行观察,数据抽样技术可以对样本总体的特征做出一定的估计和判断,以达到对样本总体的认识。分层抽样(Stratified Sampling)将样本总体按照某种特征划类分层,增大了各层内部样本个体之间的共同性,抽取出的数据样本分布更具有代表性。在当前数据搜集和存储技术不断发展、数据量激增的背景下,数据抽样技术可以在稍微降低准确性的情况下经济、快速地得到统计预测、估计和有代表性的结果,在众多领域中都发挥着重要作用。分布式环境中的数据抽样需要在满足样本代表性的条件下,尽量降低时间和网络开销,同时提高算法的可扩展性。为此,本文提出了一种高效可扩展的分布式分层抽样算法DSS。DSS采用分布式计算平台Spark消息传播的思想,确定了各个节点的中间结果在进行最终抽样时应该抽取的比例,保证了在分布式计算环境下维持抽样结果的样本代表性。同时,DSS通过考虑每个数据分区中符合分层约束的个体所占的比例,计算出每个节点实际需要抽取的样本数量,使得所有抽样操作能并行执行。另外,由于DSS只传输中间结果的摘要信息而非中间结果本身,显著降低了网络传输开销。实验表明,DSS在保持高样本代表性的同时,大幅降低了网络中数据传输量,可以将数据传输量降低到当前最先进的分层抽样方法Spark-SQE的0.05%。同时,DSS显著加快了计算速度,相比于Spark-SQE在速度上提升了65%。另外,DSS可以在数据量增长的情况下达到计算时间的线性增长,具有高可扩展性。在图像目标检测领域,由于候选框样本在不同误差类型上的表现情况差距较大,目标检测算法在训练时存在着数据不平衡的问题。为了解决该问题,本文提出了一种基于数据分层思想的在线难样本挖掘算法S-OHEM,以训练效率和准确率更高的检测器。在难样本挖掘过程中,S-OHEM针对提高检测框定位精度的需求,基于数据分层思想,考虑了不同误差类型在训练过程中不同阶段对多任务学习带来的影响。S-OHEM在挖掘“难样本”时,更多的考虑定位误差,加大活跃训练集中定位误差较高的样本比例,以达到提升检测框定位精度的效果。通过系统的实验和分析,S-OHEM在训练阶段相比于传统的难样本挖掘算法OHEM可以收敛到更低的训练误差,在测试阶段产生的检测框可以满足IoU阈值较高时对定位精度的要求。对于IoU阈值0.6和0.7的情况,S-OHEM在VOC07数据集的刚性类别上的AP都提高了0.5%,在KITTI12数据集上则都提高了1.6%;就mAP而言,在IoU阈值为0.6和0.7时,VOC07(KITTI12)有0.3%和0.5%(1%和0.5%)的提升。同时,由于S-OHEM仅从数据利用的角度来优化检测器的定位精度,因此可以很容易的和现有的基于候选区域的目标检测算法相结合,进一步提升目标检测的准确性。
其他文献
Takagi-Sugeno-Kang(TSK)模糊系统在处理高维非线性建模任务时,通常需要更多的模糊规则数,这也进一步降低了其清晰度和解释性,所以本文研究如何稀疏模糊建模。随着异构数据的
由于用户对数据的安全性和隐私性的要求不断提升,越来越多的企业用户开始建设自己的私有云平台,其中以云桌面(Cloud Desktop)应用最为典型。为了增强云桌面的用户体验,向用户
在过程工业中,很多关键的质量参数无法实时在线测量,只能通过实验室离线分析获得,严重制约了过程的监测、控制及优化水平。为此,软测量技术通过建立易测变量与难测变量之间的
数据分析技术在各个领域应用广泛。其中,聚类分析作为一个重要研究方向,获得了极大的发展。数据竞争(Data nCompetitio,DC)算法是一种基于划分的聚类算法,能够排除孤立点带来
当前,互联网的应用模式已经从发送者驱动的点对点通信为主转向接收者驱动的大规模信息获取为主。内容中心网络(Content Centric Network,CCN)顺应这一应用模式的转变,实现了
科技不断发展,各门学科与计算机领域的结合越来越紧密,图作为重要的数据结构,其应用范围不断拓广。蛋白质网络,社交网络以及电子商务网络等,都是以图进行建模的数据。随着互
研究背景:寨卡病毒(Zika virus,ZIKV)是一种蚊媒传播病毒,可引起ZIKV病。人感染ZIKV后严重可导致成人格林巴利综合征;孕妇感染病毒后可能引起新生儿小头畸形。2016年ZIKV病在
由于计算机科学技术的飞速发展,使得网络越来越复杂和多样化,这给网络和信息系统的安全管理带来了新的挑战。单一使用“检测”、“容忍”网络和信息技术难以保证网络在无干扰
介数中心性计算是复杂网络分析中的一个基本问题,它用来衡量一个节点在复杂网络中的重要程度。近年来,介数中心性已经广泛用于社交网络分析,打击恐怖组织网络,治理城市交通网
优化问题无处不在,与人们的生活息息相关。为了高效地处理优化问题,群智能优化算法应运而生。生物地理学优化(Biogeography-Based Optimization,BBO)算法是群智能优化算法之