不均衡数据集的研究及其在蛋白质相互作用位点预测中的应用

来源 :安徽大学 | 被引量 : 0次 | 上传用户:fngdi
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
在生产与生活中经常出现不均衡数据集问题,尤其在许多实际的应用领域更多见,例如诈骗信用卡的检测、信息检索、网络入侵检测、医疗诊断、文本分类及生物信息检测等,其中更为重要的是少数类样本的预测。传统分类算法一般对均衡数据集具有较好的分类效果,其评价标准主要是基于精度的,而在不平衡数据集上分类效果不好,经常把少数类样本误分为大类,不能达到分类的目的。然而在不平衡数据集中,数量较小的少数类的识别率往往具有更大的意义。在不平衡数据集中,小类样本的分布比较松散,而且大量大类样本经常包围小类样本,这是小类样本的的学习面临的重大挑战之一。所以在不均衡数据集的分类问题的研究上,迫切需要新的分类方法和判别准则的出现。由于不平衡数据集在实际应用中经常碰到,它对传统的分类方法构成了巨大的挑战,如何有效地处理不平衡数据集引起了人们的关注。不均衡数据集分类也成了机器学习领域和数据挖掘的又一新的研究热点,同时也引起了模式识别、数据挖掘方面专家的研究兴趣。近年来,在ACM、IEEE、机器学习、模式识别及数据挖掘等一些相关的学术会议上,都有关于不均衡数据集的相关专题讨论。针对下抽样的方法的不足,本文提出了一种基于K-means聚类的改进算法。为了保证整体性能的同时来提高小类样本的分类的准确率,并尽量防止含有重要信息的大类样本的丢失,我们采用了选择性抽样和随机抽样技术相结合方法对大类样本进行抽样,提出了一种基于K-means聚类的下抽样的方法,通过在UCI数据集上的实验验证其有效性。并将其应用于蛋白质相互作用位点的预测,有效的解决了蛋白质相互作用预测中存在的样本类别不均衡的问题,从而提高了蛋白质相互作用位点的识别率。总的来说,本文的主要研究内容如下:1.概述了不均衡数据集研究和集成学习研究的现状、目的与意义。主要简述了不均衡数据集分类面临的问题及解决策略、集成学习的实现方法及应用成果。2.为了保证整体性能的同时来提高小类样本分类的准确率,并尽量防止含有重要信息的大类样本的丢失,引入了一种无监督的学习方法,提出了一种基于K-means聚类的下抽样的方法。在UCI数据集上的实验结果表明,这种基于划分的K-means方法的下抽样算法能够有效的提高小类样本的识别率和保证整体的分类性能,该方法也可以解决现实生活中不均衡数据集分类问题。3.简述了蛋白质相互作用位点研究的现状与意义,为了进一步提高蛋白质相互作用位点的预测精度,本文提出了一种基于构造性神经网络集成的蛋白质相互作用位点预测的方法,以蛋白质序列谱和可及表面积为特征向量,采用窗口大小为11进行蛋白质相互作用位点的预测,和传统的SVM和覆盖算法相比,该方法的整体预测性能较好,说明了基于覆盖的集成学习算法在蛋白质相互作用位点预测的正确性和有效性。4.针对蛋白质相互作用位点的数据集中存在的样本类别不均衡现象,分析它对蛋白质相互作用位点预测造成的影响。为了进一步提高界面残基的识别率,我们将基于K-means聚类的下抽样方法应用到蛋白质相互作用位点的预测中,通过该方法获得均衡的蛋白质数据集,实验结果表明该方法能够有效的解决蛋白质相互作用位点预测出现的样本类别不均衡的问题,有效的提高了相互作用位点的识别率。
其他文献
随着互联网的日益增长,Web已经成为人们获取信息的重要途径。Web分为Surface Web和Deep Web两大类。相对而言,Deep Web蕴含了更为丰富的资源,而且价值更高。然而Web数据库分
搜索引擎的发展使得Web信息越来越容易获取。传统Web的优势在于海量数据,而语义Web则能够将信息尽可能表达为计算机程序可理解的格式。用户所需的信息是和格式无关的,数据可能
医疗发展一直是人们的热点关注话题,便捷测试试剂条的出现为医疗提供了不少便捷。医疗试剂条都经过处理,不同的试剂条检验的物质不同,这些试剂条能够快速地与唾液、血液、尿
随着网络技术的不断发展,网络规模日益扩大。对网络流量进行监测、管理和分析网络流量,对于网络管理员了解网络服务的具体情况具有重要的意义。从网络管理的角度来看,被管网
随着社会经济的飞速发展,城市中各种高层建筑物、超大型商场以及购物中心、大型娱乐城、大规模体育运动场等一系列人员聚集场所应运而生。然而这些虽然满足了人们的多元化需
蛋白质的功能与其所处的亚细胞区间紧密相关,通过对蛋白质的亚细胞区间预测研究能够帮助我们了解蛋白质的功能信息,对于生物研究有重要意义。传统通过实验的方式获得蛋白质亚
世界范围内的经济发展、社会进步和城市化进程的加快,道路交通与社会经济生活的联系也越来越紧密,随着机动车数量的不断增加,交通堵塞、交通事故、能源浪费、环境污染等问题
目前,智能交通系统是计算机视觉领域的一个重要研究方向和热点。随着计算机视觉的不断发展,智能监控技术也在不断的走向成熟,其中主要包括车辆目标的检测、跟踪、行为理解和车牌
作为中文信息处理的关键问题之一,汉语词法分析主要包括分词、词性标注和词义消歧三个子任务。虽然近年来汉语词法分析取得很大进展,但处理大规模开放文本时依然面临巨大的挑
复数阶混沌动力学系统由于复数阶自身的特点,比整数阶和分数阶系统具有更为复杂、丰富的动力学特性,同时还具有和分数阶、整数阶一样的随机性和不可预测性等优点。近几年来,