论文部分内容阅读
在生产与生活中经常出现不均衡数据集问题,尤其在许多实际的应用领域更多见,例如诈骗信用卡的检测、信息检索、网络入侵检测、医疗诊断、文本分类及生物信息检测等,其中更为重要的是少数类样本的预测。传统分类算法一般对均衡数据集具有较好的分类效果,其评价标准主要是基于精度的,而在不平衡数据集上分类效果不好,经常把少数类样本误分为大类,不能达到分类的目的。然而在不平衡数据集中,数量较小的少数类的识别率往往具有更大的意义。在不平衡数据集中,小类样本的分布比较松散,而且大量大类样本经常包围小类样本,这是小类样本的的学习面临的重大挑战之一。所以在不均衡数据集的分类问题的研究上,迫切需要新的分类方法和判别准则的出现。由于不平衡数据集在实际应用中经常碰到,它对传统的分类方法构成了巨大的挑战,如何有效地处理不平衡数据集引起了人们的关注。不均衡数据集分类也成了机器学习领域和数据挖掘的又一新的研究热点,同时也引起了模式识别、数据挖掘方面专家的研究兴趣。近年来,在ACM、IEEE、机器学习、模式识别及数据挖掘等一些相关的学术会议上,都有关于不均衡数据集的相关专题讨论。针对下抽样的方法的不足,本文提出了一种基于K-means聚类的改进算法。为了保证整体性能的同时来提高小类样本的分类的准确率,并尽量防止含有重要信息的大类样本的丢失,我们采用了选择性抽样和随机抽样技术相结合方法对大类样本进行抽样,提出了一种基于K-means聚类的下抽样的方法,通过在UCI数据集上的实验验证其有效性。并将其应用于蛋白质相互作用位点的预测,有效的解决了蛋白质相互作用预测中存在的样本类别不均衡的问题,从而提高了蛋白质相互作用位点的识别率。总的来说,本文的主要研究内容如下:1.概述了不均衡数据集研究和集成学习研究的现状、目的与意义。主要简述了不均衡数据集分类面临的问题及解决策略、集成学习的实现方法及应用成果。2.为了保证整体性能的同时来提高小类样本分类的准确率,并尽量防止含有重要信息的大类样本的丢失,引入了一种无监督的学习方法,提出了一种基于K-means聚类的下抽样的方法。在UCI数据集上的实验结果表明,这种基于划分的K-means方法的下抽样算法能够有效的提高小类样本的识别率和保证整体的分类性能,该方法也可以解决现实生活中不均衡数据集分类问题。3.简述了蛋白质相互作用位点研究的现状与意义,为了进一步提高蛋白质相互作用位点的预测精度,本文提出了一种基于构造性神经网络集成的蛋白质相互作用位点预测的方法,以蛋白质序列谱和可及表面积为特征向量,采用窗口大小为11进行蛋白质相互作用位点的预测,和传统的SVM和覆盖算法相比,该方法的整体预测性能较好,说明了基于覆盖的集成学习算法在蛋白质相互作用位点预测的正确性和有效性。4.针对蛋白质相互作用位点的数据集中存在的样本类别不均衡现象,分析它对蛋白质相互作用位点预测造成的影响。为了进一步提高界面残基的识别率,我们将基于K-means聚类的下抽样方法应用到蛋白质相互作用位点的预测中,通过该方法获得均衡的蛋白质数据集,实验结果表明该方法能够有效的解决蛋白质相互作用位点预测出现的样本类别不均衡的问题,有效的提高了相互作用位点的识别率。