论文部分内容阅读
不平衡数据的分类问题在实际的很多领域中经常出现,对于该类不平衡的数据集,由于类别间样本分布的非均衡性,经常导致模型在训练过程中不能学习到有效信息,致使模型的分类预测效果往往并不理想,且通常会偏向于多数类样本,对少数类样本难以识别。除了类别间的不平衡率,不平衡数据集复杂的结构特征也是影响模型分类效果的关键因素,例如类别重叠导致决策边界的难以确定、稀有样本与噪音样本的识别,以及类内不平衡等问题,尤其是当这些问题存在于少数类样本时,将会严重地影响到分类模型的整体性能。
解决不平衡数据分类问题的主要方法包括数据预处理策略和算法研究策略,算法研究策略主要包括集成学习、代价敏感学习,以及单类学习等,主要结合某种分类算法对其进行适当的改进,加强对少数类样本的学习,提高整体的分类效果。相比较而言数据预处理策略的研究方法,由于对后续分类过程中的模型不做具体要求,因此具有更广泛的适应性。因此,如何使得不同类别样本间的分类效果都得到相应的改善,提高传统分类模型在不平衡数据分类中的性能表现,是目前不平衡数据研究领域中的关键问题。
本文在深入探讨不平衡数据分类方法的基础上,围绕数据预处理的研究策略展开了一系列的研究工作,针对不同的数据不平衡问题研究相应的分类方法,本文的主要工作包括以下几个方面:
(1)针对存在类别重叠的二分类不平衡数据集,将深度学习中的CGAN模型引入分类研究中,提出了基于CGAN模型的RECGAN重抽样方法。在对数据集进行结构特征分析的基础上,该方法主要包括对负类样本的欠抽样和对正类样本的过抽样。对负类样本中的噪音样本点进行移除,并采用k-近邻算法,结合样本结构特征分析中对样本性质的划分,对重叠区域的负类样本进行适当的欠抽样,以降低重叠区域负类样本的比重。基于训练的CGAN模型对正类样本进行过抽样,提高正类样本信息对模型分类效果的影响,克服了以往常用的过抽样方法均从样本点的局部邻域出发的缺陷。并利用支持向量机、逻辑回归、决策树及k-近邻四种分类器和F1值、AUC值两种评价标准,验证了RECGAN重抽样方法在具有类别重叠的不平衡数据分类中的优势。
(2)针对样本量较少的二分类不平衡数据集,结合数据重组和密度聚类的方法,提出一种基于数据重组和欠抽样的S2SLDC方法。对于样本量较少的不平衡分类问题,由于样本数据表达不充分,使得模型不能有效学习到样本间的类别信息,尤其在不平衡率较高的情形下,使得模型对正类样本的识别效果较差。针对此问题,S2SLDC方法首先对负类样本进行密度聚类,将负类样本按其分布信息分解成多个子集,并基于负类样本的聚类结构对其进行欠抽样,抽取具有代表性的负类样本。其次利用抽取的部分负类样本,运用数据重组的思想对数据进行重新表示,不仅对数据集进行了有效的信息扩充,并且降低了数据集的不平衡率。实验结果表明模型的分类效果和运行效率均有明显提升。
(3)在多类别的不平衡数据分类中,针对存在的类内不平衡问题,提出一种基于聚类的过抽样方法(COM)。COM过抽样方法的根本目的在于缓解少数类样本的类内不平衡对分类的影响,同时避免过抽样过程中容易引起的过泛化现象。首先基于样本的邻域结构特征,对少数类样本进行聚类分析。其次根据少数类样本的聚类结构分析,通过对密度较低的簇设置较高的抽样权重,而密度较高的簇给予较低的抽样权重,以保证那些较难分类的样本点,能够以更大的概率被抽中去合成样本,缓解类内不平衡对分类的影响。最后则根据簇的不同结构特点,对簇中的少数类样本点进行相应的过抽样处理。实验结果表明,在多类别的不平衡数据分类中,COM过抽样方法可以使分类器对任意两类的平均分类能力得到明显改善。
(4)利用Lending Club平台提供的网络借贷数据,对P2P网络借贷违约预测模型进行了研究。通过对借贷用户违约行为的统计分析,从借款人收入、贷款目的、信用等级、就业年限等几个方面对借款人违约的潜在可能性进行描述。针对该网络借贷数据存在的高维不平衡和类别重叠的特点,将MIC的特征选择方法和RECGAN重抽样方法相结合,应用于网络信贷中违约预测的研究,一方面利用MIC方法从相关性和冗余性两个角度进行有效的特征选择;另一方面利用RECGAN重抽样方法对违约样本和未违约样本进行平衡性处理,缓解类别分布不平衡对分类预测的影响。结果表明该处理方法对网络信贷数据的违约预测有明显提高。
本文分别针对具有类别重叠的不平衡问题、样本量较少的不平衡问题,以及多类别不平衡问题和P2P网络借贷违约预测进行了研究,并提出了相应的分类方法。以上研究成果对不平衡数据分类的研究具有一定的参考作用,有助于不平衡数据分类研究的进一步深入;同时也存在不足和有待提高的地方,例如针对具体领域的不平衡分类问题,结合相应的处理技术对所提方法进行改进和应用,深化所做的研究工作。
解决不平衡数据分类问题的主要方法包括数据预处理策略和算法研究策略,算法研究策略主要包括集成学习、代价敏感学习,以及单类学习等,主要结合某种分类算法对其进行适当的改进,加强对少数类样本的学习,提高整体的分类效果。相比较而言数据预处理策略的研究方法,由于对后续分类过程中的模型不做具体要求,因此具有更广泛的适应性。因此,如何使得不同类别样本间的分类效果都得到相应的改善,提高传统分类模型在不平衡数据分类中的性能表现,是目前不平衡数据研究领域中的关键问题。
本文在深入探讨不平衡数据分类方法的基础上,围绕数据预处理的研究策略展开了一系列的研究工作,针对不同的数据不平衡问题研究相应的分类方法,本文的主要工作包括以下几个方面:
(1)针对存在类别重叠的二分类不平衡数据集,将深度学习中的CGAN模型引入分类研究中,提出了基于CGAN模型的RECGAN重抽样方法。在对数据集进行结构特征分析的基础上,该方法主要包括对负类样本的欠抽样和对正类样本的过抽样。对负类样本中的噪音样本点进行移除,并采用k-近邻算法,结合样本结构特征分析中对样本性质的划分,对重叠区域的负类样本进行适当的欠抽样,以降低重叠区域负类样本的比重。基于训练的CGAN模型对正类样本进行过抽样,提高正类样本信息对模型分类效果的影响,克服了以往常用的过抽样方法均从样本点的局部邻域出发的缺陷。并利用支持向量机、逻辑回归、决策树及k-近邻四种分类器和F1值、AUC值两种评价标准,验证了RECGAN重抽样方法在具有类别重叠的不平衡数据分类中的优势。
(2)针对样本量较少的二分类不平衡数据集,结合数据重组和密度聚类的方法,提出一种基于数据重组和欠抽样的S2SLDC方法。对于样本量较少的不平衡分类问题,由于样本数据表达不充分,使得模型不能有效学习到样本间的类别信息,尤其在不平衡率较高的情形下,使得模型对正类样本的识别效果较差。针对此问题,S2SLDC方法首先对负类样本进行密度聚类,将负类样本按其分布信息分解成多个子集,并基于负类样本的聚类结构对其进行欠抽样,抽取具有代表性的负类样本。其次利用抽取的部分负类样本,运用数据重组的思想对数据进行重新表示,不仅对数据集进行了有效的信息扩充,并且降低了数据集的不平衡率。实验结果表明模型的分类效果和运行效率均有明显提升。
(3)在多类别的不平衡数据分类中,针对存在的类内不平衡问题,提出一种基于聚类的过抽样方法(COM)。COM过抽样方法的根本目的在于缓解少数类样本的类内不平衡对分类的影响,同时避免过抽样过程中容易引起的过泛化现象。首先基于样本的邻域结构特征,对少数类样本进行聚类分析。其次根据少数类样本的聚类结构分析,通过对密度较低的簇设置较高的抽样权重,而密度较高的簇给予较低的抽样权重,以保证那些较难分类的样本点,能够以更大的概率被抽中去合成样本,缓解类内不平衡对分类的影响。最后则根据簇的不同结构特点,对簇中的少数类样本点进行相应的过抽样处理。实验结果表明,在多类别的不平衡数据分类中,COM过抽样方法可以使分类器对任意两类的平均分类能力得到明显改善。
(4)利用Lending Club平台提供的网络借贷数据,对P2P网络借贷违约预测模型进行了研究。通过对借贷用户违约行为的统计分析,从借款人收入、贷款目的、信用等级、就业年限等几个方面对借款人违约的潜在可能性进行描述。针对该网络借贷数据存在的高维不平衡和类别重叠的特点,将MIC的特征选择方法和RECGAN重抽样方法相结合,应用于网络信贷中违约预测的研究,一方面利用MIC方法从相关性和冗余性两个角度进行有效的特征选择;另一方面利用RECGAN重抽样方法对违约样本和未违约样本进行平衡性处理,缓解类别分布不平衡对分类预测的影响。结果表明该处理方法对网络信贷数据的违约预测有明显提高。
本文分别针对具有类别重叠的不平衡问题、样本量较少的不平衡问题,以及多类别不平衡问题和P2P网络借贷违约预测进行了研究,并提出了相应的分类方法。以上研究成果对不平衡数据分类的研究具有一定的参考作用,有助于不平衡数据分类研究的进一步深入;同时也存在不足和有待提高的地方,例如针对具体领域的不平衡分类问题,结合相应的处理技术对所提方法进行改进和应用,深化所做的研究工作。