论文部分内容阅读
类别不平衡分类问题广泛存在于金融、生物医学、信息安全等诸多领域,在信用风险评估、疾病检测等实际应用中,类别不平衡数据通常是分类型和数值型数据并存,将分类型数据数值化,会引入不合理的序信息,且假定不同分类型属性值间距离相等。不平衡数据本身的特性,如类别不平衡、类重叠、少数类样本过少等,是影响其分类困难的主要原因,也是影响数据复杂程度的重要原因。因此,对于包含分类型和数值型数据的混合型不平衡数据,在理解数据的复杂性的前提下,设计合理的数据组合映射方法,降低数据的复杂性,对于提升混合型不平衡数据的分类性能具有重要意义。本文针对混合型不平衡数据开展研究,其主要研究工作包括以下三个方面:(1)数据本身的复杂程度是影响分类性能的关键因素,针对分类型数据难以直接度量其复杂性的问题,本文考虑属性与类标签的特点,利用HVDM(Heterogeneous Value Difference Metric)距离度量方法,分别从三个角度提出了适用于混合型不平衡数据的复杂性度量方法,有效解决了具有分类型和数值型数据的混合型不平衡数据难以直接度量复杂性的问题。然后通过实验验证了所提方法的有效性,并最终得出结论:不平衡数据的复杂性可以使用多数类和少数类复杂性的差值来判断。(2)对于复杂性较高的混合型不平衡数据集,传统欠采样易丢失样本信息、过采样易加重两类样本重叠、产生过拟合等问题,本文结合分类型数据的特点,重点关注数据的不平衡性与类重叠,提出了ReSC数据组合映射方法。通过设计相应的样本组合方案,避免了对分类型数据进行数值编码,减少了类间样本的重叠,从而降低了混合型不平衡数据的复杂性。本文分别通过理论分析和实验分析验证了ReSC数据组合映射方法的合理性和有效性。(3)在金融领域中,信用风险评估数据具有混合型不平衡数据的特点,本文以其为应用点进行研究,采用ReSC数据组合映射方法对其进行预处理,并分别从数据复杂性的角度和分类性能的角度对其进行了实验分析,最终,通过实验验证了复杂性度量方法和ReSC数据组合映射方法在实际应用场景中的可行性。通过分析混合型不平衡数据的复杂性理解数据,采用ReSC数据组合映射方法降低数据复杂性,解决了分类型数据难以直接处理的问题。本文的研究对混合型数据的不平衡分类问题具有重要的理论意义和现实意义。