论文部分内容阅读
随着数据采集技术的不断发展,实际应用中收集到的数据逐渐呈现规模大、维度高和不平衡的特点。高维不平衡数据学习在许多重要应用中非常普遍,这也对传统的数据挖掘与机器学习算法提出了不小的挑战。现有的方法通常先采用降维技术来处理维数灾难,然后运用传统的类不平衡学习技术来解决类不平衡问题。但是,降维可能造成信息损失问题,而不平衡数据中少数类数据的丢失将更容易导致分类的错误。Hubness现象是高维空间中的固有现象,即某些样本频繁地(或很少地)作为其它样本的k最近邻居出现。因此,本文考虑从hubness现象入手,针对高维不平衡数据中普遍存在的维度灾难与类不平衡分布这两大问题展开研究,从新的角度来解决数据的高维不平衡问题,论文主要包括以下三个方面的工作:(1)针对高维空间中学习不平衡问题,提出了一种基于hubness与过采样的集成分类算法HIBoost。该算法考虑了维度灾难中的hubness现象,即高维空间中普遍存在奇异点(hubs和antihubs),这些奇异点频繁(或很少)出现在其他点的k近邻中。对于高维空间产生的hubs和antihubs,算法在权值更新过程中引入了一个影响因子来限制它们的权值增长,从而在训练成员分类器时能够降低过拟合风险。对于类不平衡问题,算法在每次迭代中采用过采样技术(SMOTE)来平衡训练数据,以减轻成员分类器的预测偏差。实验结果表明,HIBoost在主要的评价指标上优于典型的集成分类算法。(2)针对HIBoost算法在分类器数量较高时所遇到的过拟合和运行开销较大的问题,提出一种基于hubness和聚类采样的集成分类算法HUSBoost。对于高维中普遍存在的hubs,算法在权重更新的过程中为多数类与少数类样本分别引入了不同的权重因子来减缓其权重的过度增长,从而缓解“bad hubs”对成员分类器分类决策的负面影响。为了解决类别分布不平衡的问题,算法采用了基于聚类的欠采样方法,即先通过k-hub聚类技术将多数类样本划分为多个聚类,然后从每个聚类中选取具有代表性的多数类样本,以形成均衡的类分布。实验表明,HUSBoost优于几种典型的集成算法。(3)基于提出的上述两种算法,论文设计并实现了一个轻量级的智能医疗诊断原型系统,主要工作包括架构设计,数据库存储,模型训练与迭代,接口封装等内容,并将其搭载在微信小程序平台上。