集成学习及其在基因数据分析中的应用研究

来源 :南京师范大学 | 被引量 : 0次 | 上传用户:qingqing4452638
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
当前,集成学习是机器学习和数据挖掘领域中热门的研究方向。集成学习是使用一系列学习器进行学习,再按照某种规则把各个学习器结果进行整合从而获得比单个学习器更好的学习效果的一种机器学习方法。集成学习在生产、科研和生活中有着广泛应用前景。本文主要在子空间的优化以及子分类器的选择上对集成学习作了较深入的研究,并将这些改进的算法应用到基因数据分析中,主要工作包括如下几个方面:   1.提出了一种基于遗传算法的子分类器选择分类集成算法GASS。为了解决由不同的子空间生成的子分类器(Subclassifier)之间存在的相关性或冗余性对分类过程产生不必要时间与空间消耗以及对分类结果的影响,探索了如何在这些子分类器中选择尽量少的分类器而分类集成的效果尽量好,此方法叫做子分类器选择(SubclassifierSelection)。从实验结果看,GASS在时间开销和分类精确度方面都达到了比较好的效果,本文对遗传算法中适应度函数的参数也做了相应讨论与分析。   2.提出了一种基于Simba的子空间优化算法FSEL。该算法利用基于假设间隔的特征选择算法Simba对数据集的各个特征按其贡献度进行排序,得到一个特征贡献度序列,并对这个序列进行分段,并对各个段区设定选择特征的比例,这样既可以按设定取到贡献度大的特征,也能做到对不同贡献度的特征的选取保证了分类器的差异性,以达到最好的分类效果。实验结果表明分类结果得到了较大提高,并且对分段段数和段区比例等参数都做了不同的设置并对结果进行讨论分析。   3.将GASS算法和FSEL算法应用到高维基因数据分析中。GASS算法通过将高维特征进行子空间选择,并过滤掉相关性大的子分类器;FSEL算法对高维特征进行子空间优化,特征子空间尽量选择贡献度较大的特征,忽略贡献度很小的特征,并且在不同的贡献度上做到平衡。实验效果表明GASS算法和FSEL算法对于高维基因数据也有较好的效果。
其他文献
近年来随着国家智能电网的发展,智能电网采集到的数据成倍增长,不仅包括结构化数据,而且包括一些半结构化、非结构化的音频视频数据。如何安全的存储和高效的处理这些数据,成为智能电网发展亟待解决的问题。云存储系统具有安全性高、数据存储量大、易扩展等特点,能够有效的存储智能电网采集的海量数据。云存储副本技术,可以有效的保证数据存储的安全性与处理任务的并发性,然而副本技术又带来了诸如副本一致性,负载均衡,副本
图像超分辨率技术是指利用若干幅低分辨率图像作为输入,通过一系列信号处理的手段融合出具有更多高频细节信息的高分辨率图像的方法的总称。由于图像超分辨率技术能在不需要
随着通信产业的迅猛发展,传统的有线接入方式已经不能满足人们的需求,新的无线接入技术凭借其自身的成本低,速度快,扩展性好等诸多优势成为当今通信行业的焦点。与此同时,网
近年来,作为信息获取最基本的技术之一:传感器技术,因其巨大的应用价值受到了了工业界和学术界的极大重视。传感器技术、网络、无线通信等技术的发展推动了无线传感器网络的
Internet的高速发展迫使人们去寻找一种能够在开放、动态、自治、异构环境下执行计算的新模式。产生于人工智能领域的Agent技术在这种背景下迅速发展起来,Agent具有自治性、
伴随着计算机网络技术、通信技术的不断发展的同时,网络电话会议建设也在高速进行。电话会议系统是利用多媒体通信技术、网络终端等设备,在异地或者多个地点之间通过IP网络传
随着互联网的发展,多媒体技术的影响领域和应用范围正在日益扩大。而基于多媒体的传输技术的研究也越来越受到重视。目前大多数多媒体传输技术的研究主要集中在C/S和P2P架构下
随着计算机网络的持续快速发展,各种网络应用需求不断涌现,造成网络数据流量激增。传统的网络服务机制“尽力而为”的服务模型已经不能够满足网络发展的需要,网络拥塞问题变得越
随着通信技术和计算机技术的发展,人们能够便捷地在移动设备之间共享文件,交换信息。借助于移动自组网,无线移动用户可以通过中间节点分组传发实现与直接传输范围之外的其他
随着计算机行业(包括计算机硬件软件以及网络)的发展,使早期提出的网格概念以及技术更具有现实意义。网格将网络中空闲的资源有效地管理利用,将网络中的一些空闲或高级设备方