论文部分内容阅读
数据分类是机器学习和数据挖掘中获取数据中的信息和价值的一种重要手段,传统的数据分类算法通常运用于数据概率分布平衡的数据集,但是在实际生活和工业生产中,很多数据集中正负样本的分布往往是不平衡的,而少数类样本数据又具有更重要的信息,少数类样本分类错误可能需要付出很大的代价,如医疗诊断、信用卡诈骗检测等。在这种情况下,以总体的分类准确率为目标的传统分类算法并不适用于解决这一类的问题。针对不平衡数据分类问题中的难点,本文提出了一种基于深度神经网络集成的不平衡数据分类方法,利用深度神经网络提取复杂问题样本中的潜在特征,基于进化算法提高深度神经网络的训练效果,通过生成对抗模型改善数据样本的不平衡状况,最后通过深度神经网络集成来提高综合分类性能。本文的主要成果和创新点如下:(1)提出了一个基于进化深度神经网络的不平衡数据分类模型,通过深度自编码器(Deep Autoencoder,DAE)以及深度玻尔兹曼机(Deep Boltzmann Machine,DBM)提取不平衡数据中的潜在特征,通过水波优化算法(Water Wave Optimization,WWO)对深度神经网络的结构和参数进行优化,实验结果表明该方法显著地提升了深度神经网络的分类准确率,在不平衡数据分类问题中表现出了良好性能。(2)设计了一个基于深度去噪自编码器的深度生成对抗网络(Adversarial Deep Denoising Autoencoder,GAN-DAE),通过生成器和判别器的对抗训练,获取不平衡数据中正负样本的特征,并用训练完成的生成器生成少数类样本,改善数据样本的不平衡状况。实验结果表明这种该方法有效提升了不平衡数据分类的性能该方法,并将GAN-DAE应用于银行诈骗转账检测这一重要实际问题中,取得了很好的分类效果,并产生了较大的经济效益。(3)提出了一种基于进化算法优化的深度神经网络集成模型,将一组GAN-DAE集成到一个综合分类模型中,采用进化算法优化模型中各个成员神经网络的权重,实验结果表明这种深度神经网络集成方法进一步提升了不平衡数据分类的性能。针对不平衡数据分类问题,本文提出了基于进化算法的深度神经网络优化方法,同时对神经网络的结构和参数进行优化提升了深度神经网络的性能和分类精度。同时本文提出了基于进化算法优化的深度神经网络集成模型,以GAN-DAE作为成员神经网络,并使用进化算法对成员神经网络的权重进行优化,实验结果表明本文提出的方法大大提升了不平衡数据分类的精度。