多分类器集成系统在基因微阵列数据分析中的应用

被引量 : 0次 | 上传用户：fish3321

【摘要】

：

多分类器集成系统是当前机器学习领域的一个研究热点。由于使用多个基分类器构建的集成系统通常比单个优秀的分类器具有更强的泛化能力,因此多分类器集成系统为许多基于传统

【作者】

：

刘昆宏

【发表日期】

：

2008年期

【关键词】

：

多分类器集成系统基因微阵列数据遗传算法集成特征选择差异度独立分量分析遗传规划基分类器旋转森林

下载到本地 , 更方便阅读

下载此文赞助VIP

声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架

论文部分内容阅读

多分类器集成系统是当前机器学习领域的一个研究热点。由于使用多个基分类器构建的集成系统通常比单个优秀的分类器具有更强的泛化能力,因此多分类器集成系统为许多基于传统模式识别方法很难解决的分类问题提供了新的解决方案。DNA微阵列技术是一种由物理学、微电子学与分子生物学等几个领域综合交叉形成的高新技术,该技术已经在医学与生物学上得到越来越广泛的应用,其中在癌症分析检测上的应用使得在大规模基因水平上深入研究癌症的发生、扩散等病理特征成为可能。特别地,进行可靠的癌症类型诊断与预测、癌症关键基因的识别和癌症的分类已成为当前癌症研究中的两项重要内容。尽管如此,由于微阵列数据具有数据维数高、样本数少的特点,因而使用常规的模式识别方法并不能总是获得理想的结果。本文主要针对多分类器集成系统在基因微阵列数据集上的应用进行了深入的分析与探讨,并设计了新的集成系统,以更好地解决微阵列数据的分类判别问题。全文的主要工作概括如下:(1)从机器学习的角度分析,癌症关键基因识别问题的核心是特征选择问题。本文集合filter方法,分别设计了基于标准遗传算法和多目标遗传算法的集成特征选择方法。实验中,首先使用filter方法对基因进行初步筛选,进而使用遗传算法进一步实现特征选择,然后将所选择的一组特征子集分别用于构造基分类器,以生成集成特征选择系统。实验结果表明,所设计的集成特征选择算法能有效地选择合适的基因子集,而且这种集成系统获得了良好的识别性能。(2)独立分量分析是一种近几年来新提出的线性变换方法,它已经成功地应用在微阵列数据分析上。本文借鉴了集成特征选择方法的思路,设计了集成独立分量选择系统。这种系统首先使用独立分量分析算法对微阵列数据进行线性变换,之后使用遗传算法选择合适的独立分量子集,并分别用于构建基分类器。由于使用这种方法能保证各个基分类器间的差异度,因此最后使用投票法将各个基分类器进行组合,即能构成稳健的集成系统。(3)在应用于微阵列数据分析中,通常独立分量分析算法得到的独立分量集并不总是可重复的。本文利用独立分量集之间的差异,提出一种新的构造集成系统的思路。这个集成系统基于多目标遗传算法,通过对独立分量分析变换后获得的不同独立分量集分别进行筛选,从各个不同的独立分量集中分别获得较优子集,用以构建基分类器。实验结果表明,使用这种方法,能够获得差异度更大的基分类器,因而最终的集成系统具有更优的性能。(4)旋转森林是一种新提出的多分类器集成系统,其特点在于使用线性变换方法生成旋转矩阵,使数据可以投影到不同坐标系中,从而构建有差异的分类器。由于这种系统要求数据集的特征维数不能过高,因此不能直接用在基因微阵列数据分析判别中。本文使用filter方法对基因微阵列数据进行降维,以获得适合旋转森林的数据集。此外,我们还引入独立分量分析技术作为一种新的产生旋转矩阵的方法。在两个常见数据集上的实验结果表明,旋转森林在基因微阵列数据判别中能获得较优的识别效果,并且基于独立分量分析的旋转森林能获得最佳的识别性能。(5)关键基因选择与癌症类别判别方法对处理多类癌症微阵列数据集往往比对两类癌症数据集更困难。其原因在于对多类问题,每类的样本数少,且往往各个类别样本数不均衡。本文设计了一种基于子集成系统的遗传规划,以同时实现特征选择和类别判定。首先,算法将多类问题分解为多个两类问题,然后,在遗传规划算法设计中,使用规模较小的集成系统(称为子集成系统)来分别处理各个两类问题,并将这些子集成系统融合起来,以构成一个个体。由于每个个体都包含一组子集成系统,因此它具有较强的泛化能力,且能直接处理多类判别问题。本文给出了基于特征的差异度测度,并使用局部优化算法来确保各个子集成系统的差异度,从而进一步提高系统运行的效率。实验结果表明,本文设计的算法能同时有效实现关键基因的选择与癌症类别的判定。

其他文献

小班儿童数学认知的发展

<正>学前儿童数学认知的发展主要表现在儿童对有关数以及数之间的关系、量、空间、几何形状、分类、排序、模式、时间等概念的理解与运用上,其中对数概念的理解与运用是学前

期刊

数学认知加减运算形状认知加法运算理解与运用

山东半岛产业集群与城市群互动发展研究

加快城市化进程,构建城市群,是一个国家和地区社会经济发展的必然选择。而城市群的发展是以一定的产业为支撑的,产业集群是大量产业联系密切的企业以及相关支撑结构在一定地

学位

山东半岛产业集群城市群总体思路

论声乐演唱中的感觉与思维

感觉与思维是人人都具有的生理机能,在日常的学习与生活中,感觉与思维无处不在,随时都在发生,它们属于心理学(认知心理学)研究的范畴,是人类认知过程中的两个重要阶段。本文

学位

声乐演唱感觉思维心理学音乐心理学

酪蛋白胶束结构与功能特性的研究

两亲嵌段共聚物以合成的聚合物体系和天然的大分子体系为主,前者如聚酸酐,聚丙烯酸及其衍生物等,后者如酪蛋白,明胶,壳聚糖等。由于天然高分子材料具有性能稳定、无毒、应用

学位

酪蛋白胶束SDS胶束化纳米金胶酪蛋白激基复合物结构与功能

中国上市公司并购动因及长期绩效研究

纵观发达国家的证券市场的发展,并购是一个永恒不变的热点。西方发达国家已经经历了五次并购浪潮,总体而言,每次并购浪潮都发生在经济转型时期。中国目前正处于急剧的转型时

学位

并购上市公司长期绩效

构筑儿童的数学乐园

<正>"儿童数学"活动课程倡导"数由童生,童因数长",追求"童数相生"的和美境界。其课程的设计立足三个关键词:儿童、问题、活动。坚持课程的儿童立场是"儿童数学"之魂,我们强调

期刊

乘法口诀表

大跨度变截面波形钢腹板PC组合箱梁桥静动力学特性分析

波形钢腹板PC组合箱桥以其施工速度快、结构重量轻、跨越能力大、结构形式美观等优点被大跨度桥梁设计者所青睐。该类型桥梁自从被提出以来,法国、日本等国家对之进行了不断

学位

波纹钢腹板箱梁静力分析动力特性

TGF-β1、IL-10在门静脉预输注供者凋亡脾脏细胞大鼠移植心脏模型中的表达

目的输注供者凋亡细胞建立大鼠同种异体心脏移植模型,探讨凋亡细胞诱导免疫耐受的作用机制.方法实验动物分为3组：A组为对照组；B组为实验组,心脏移植前经门静脉输注供者来源的

期刊

凋亡细胞免疫耐受心脏移植

三种牙周致病菌在慢性牙周炎和冠心病患者龈下菌斑中的分布

目的通过采用聚合酶链反应(polymerase chain reaction,PCR)技术,比较三种主要牙周致病菌--福赛斯坦纳菌(T.f)、牙龈卟啉单胞菌(P.g)、中间普氏菌(P.i)在慢性牙周炎和冠心病

学位

慢性牙周炎冠心病牙周可疑致病菌龈下菌斑聚合酶链反应

团体康复训练联合聚焦解决模式在长期住院慢性精神分裂症患者中的应用

目的探讨团体康复训练联合聚焦解决模式在长期住院慢性精神分裂症患者中的应用效果。方法选取2017年1月住院于江苏省扬州五台山医院康复科的精神分裂症男性患者104例,根据有

期刊

精神分裂症长期住院团体康复训练聚焦解决问题模式社会功能

多分类器集成系统在基因微阵列数据分析中的应用

与本文相关的学术论文