论文部分内容阅读
数据抽样是一种从样本总体中选择部分有代表性的个体进行分析的推论统计方法。通过对抽取样本的属性进行观察,数据抽样技术可以对样本总体的特征做出一定的估计和判断,以达到对样本总体的认识。分层抽样(Stratified Sampling)将样本总体按照某种特征划类分层,增大了各层内部样本个体之间的共同性,抽取出的数据样本分布更具有代表性。在当前数据搜集和存储技术不断发展、数据量激增的背景下,数据抽样技术可以在稍微降低准确性的情况下经济、快速地得到统计预测、估计和有代表性的结果,在众多领域中都发挥着重要作用。分布式环境中的数据抽样需要在满足样本代表性的条件下,尽量降低时间和网络开销,同时提高算法的可扩展性。为此,本文提出了一种高效可扩展的分布式分层抽样算法DSS。DSS采用分布式计算平台Spark消息传播的思想,确定了各个节点的中间结果在进行最终抽样时应该抽取的比例,保证了在分布式计算环境下维持抽样结果的样本代表性。同时,DSS通过考虑每个数据分区中符合分层约束的个体所占的比例,计算出每个节点实际需要抽取的样本数量,使得所有抽样操作能并行执行。另外,由于DSS只传输中间结果的摘要信息而非中间结果本身,显著降低了网络传输开销。实验表明,DSS在保持高样本代表性的同时,大幅降低了网络中数据传输量,可以将数据传输量降低到当前最先进的分层抽样方法Spark-SQE的0.05%。同时,DSS显著加快了计算速度,相比于Spark-SQE在速度上提升了65%。另外,DSS可以在数据量增长的情况下达到计算时间的线性增长,具有高可扩展性。在图像目标检测领域,由于候选框样本在不同误差类型上的表现情况差距较大,目标检测算法在训练时存在着数据不平衡的问题。为了解决该问题,本文提出了一种基于数据分层思想的在线难样本挖掘算法S-OHEM,以训练效率和准确率更高的检测器。在难样本挖掘过程中,S-OHEM针对提高检测框定位精度的需求,基于数据分层思想,考虑了不同误差类型在训练过程中不同阶段对多任务学习带来的影响。S-OHEM在挖掘“难样本”时,更多的考虑定位误差,加大活跃训练集中定位误差较高的样本比例,以达到提升检测框定位精度的效果。通过系统的实验和分析,S-OHEM在训练阶段相比于传统的难样本挖掘算法OHEM可以收敛到更低的训练误差,在测试阶段产生的检测框可以满足IoU阈值较高时对定位精度的要求。对于IoU阈值0.6和0.7的情况,S-OHEM在VOC07数据集的刚性类别上的AP都提高了0.5%,在KITTI12数据集上则都提高了1.6%;就mAP而言,在IoU阈值为0.6和0.7时,VOC07(KITTI12)有0.3%和0.5%(1%和0.5%)的提升。同时,由于S-OHEM仅从数据利用的角度来优化检测器的定位精度,因此可以很容易的和现有的基于候选区域的目标检测算法相结合,进一步提升目标检测的准确性。