论文部分内容阅读
主动学习是机器学习领域的重要研究方向。传统的主动学习方法通常选择不确定性的或者具有代表性的样本供专家打标,然后添加到已标记的数据集中供分类器学习。现有主动学习方法主要存在以下三个问题:(1)样本重要性度量不全面;(2)样本空间结构信息利用不全面;(3)对于野点的处理不够完善。粗糙集理论是处理不确定性问题的新方法,能够根据数据分布自主地进行知识获取,粗糙集理论为主动学习提供了新的解决思路。本文结合粗糙集理论,对主动学习方法开展了研究工作,取得了如下创新点。(1)提出了基于邻域粗糙集的主动学习方法。首先,结合邻域粗糙集对无标记样本进行邻域缩减,可有效地对样本集做预处理;其次,本文将邻域粗糙集理论与主动学习相结合,在样本选择的计算过程中,计算了无标记样本的不确定性和泛化性,以此来衡量该样本的重要性。该方法能在主动学习的迭代过程中优先挑选出更重要的样本进行查询,以此提高模型的性能。在此基础上,提出了基于粗糙集的主动学习方法,可对无标记样本进行主动学习。(2)提出了基于Spark平台的主动学习样本缩减算法,并应用于大规模样本缩减。基于邻域粗糙集的主动学习串行方法存在部分计算瓶颈,效率较低。本文采用Spark内存迭代计算技术,提出了基于Spark的主动学习样本缩减方法。将主动学习应用于大规模有标签样本集的数据缩减中能较好地过滤噪声数据,并在少量数据上效果几乎与全部数据性能相当。改进后的算法的实际复杂度大大降低,改善了原算法的执行效率。基于粗糙集的主动学习方法的实验结果表明:在UCI数据集上,文中提出的基于粗糙集的主动学习方法充分利用了数据的分布信息,同时结合了样本的不确定性计算、代表性计算和野点选择的处理,是一种有效地解决主动学习样本选择问题的算法。在Accuracy、AUC等指标上优于文献中的主动学习算法。此外,并行化实验结果表明:并行算法不但能保持算法的有效性,并且还能大幅度地降低算法执行时间。