特征选择算法在基因表达数据分类中的应用

来源 :中国计量大学 | 被引量 : 1次 | 上传用户:andy630767963
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
在DNA微阵列研究领域,通过生物芯片技术对基因表达数据进行获取的过程中,一般都存在着基因表达的偏差。基因检测价格昂贵导致了实验个体数量偏少,然而每个人检测的基因数量却是万级的,当然其中包含了大量对分类无关的基因,基因之间的相关性也导致了数据的冗余性,这些就是基因表达数据的典型特点:小样本、高维度、高噪声。如何找出对分类敏感的相关基因成为了当务之急。于是针对基因数据分类中存在的特征维数过高、冗余数据和高噪声等问题,以及现如今基因表达数据的样本数量和特征维度越来越多的情况,本文研究出有效且鲁棒性高的用于基因表达数据分类的特征选择算法,提出了以下两种混合特征选择算法,并对其进行如下研究:(1)提出一种混合特征选择算法包括互信息最大化和自适应遗传算法(MIMAGA)。利用互信息最大化找出同类中相关性最强的基因,运用自适应遗传算法加强变异能力。实验结果表明,提出的MIMAGA混合特征选择算法显著降低了基因表达数据的维度,减少了分类的冗余。与传统的特征选择算法相比,经过MIMAGA混合特征选择算法降维后的子数据集得到了更高的分类精度。还使用四种不同的分类器应用于降维后的子数据集,以证明所提出的混合特征选择算法的鲁棒性。(2)提出一种基于ReliefF和自适应粒子群优化(APSO)的混合降维算法。通过ReliefF和APSO算法选择特征子集:首先利用ReliefF进行属性的评优,然后使用APSO平衡算法的全局与局部搜索能力,再使用超限学习机(ELM)作为评价函数,更快速的对基因数据进行分类,最后通过循环迭代得到最优的分类精度。实验证明,混合降维算法与已有的算法相比分类精度更高、更稳定,更适用于基因表达数据降维。
其他文献
目的:探讨抗癌口服液在体外对MGC-803胃癌细胞株的抗增殖及诱导凋亡作用及机制。方法:应用MTT法、生长曲线、集落形成率的测定和血清药理学实验检测该中药对MGC-803胃癌细胞的抗
<正>"旷古山石莽自野,百转千回万壑旋。开天聚气冰化石,天地凝雪万仞山。"横亘于青海省东北部与甘肃省西部之间的祁连山,巨龙卧地、绵延万里,她涵养并孕育了黑河、石羊河、疏
随着城镇化的快速推进,我国已经正式进入城市主导型社会,但在城市发展过程中,不平衡、不协调、不可持续问题依然突出,环境污染、生态破坏、交通堵塞等“城市病”日趋严重,不仅影响了公众健康,同时也大大降低了城市宜居水平和居民生活质量。为科学评价城市环境友好程度,促进城市绿色转型,推动城市全面协调可持续发展,有必要研究发布城市环境友好指数。本文主要构建了符合我国实际情况的城市环境友好体系,并通过分析各城市及
随着城市建设的发展,深基坑工程不断涌现。温州位于浙江滨海地区,深厚淤泥质软土广泛分布,深基坑开挖引起的周边环境效应更加难以控制,在施工过程中对周边的影响更加不容忽视
本试验以红叶石楠茎尖培养所得的试管苗为外植体,探讨了不同植物生长调节剂的浓度对试管苗增殖和不同培养基配方对试管苗生根的影响,建立了一个有效的快速繁殖体系。结果表明
彩叶植物在大学校园中的应用已经成为一种趋势,良好的校园生态环境需要绿色植物和彩叶植物相结合。通过调研得出江西财经大学麦庐园校区有40多种彩叶植物,配置形式应用了孤植
<正> 血浆凝血因子中有四种(Ⅰ、Ⅱ、Ⅸ、Ⅹ)含有γ-羧基谷氨酸(γ-Carboxygluta-mate,Gla)残基。Gla是蛋白质翻译后修饰而生成的,由肝细胞微粒体内的谷氨酰羧化酶(glutamyl
责任审计对促进我国政府职责完全有效的履行,对我国政府行政权力的制约具有重要的作用。经济责任审计作为我国责任审计的一个重要部分,在我国的治理中有着非常独特的意义。本
随着我国经济的飞速发展,高等级公路建设方兴未艾。由于沥青路面具有表面平整、行车舒适、耐磨、噪音低、施工周期短、养护维修简便等特点,因而被越来越多地应用到高等级公路
基于城乡二元结构和"重点论"法治思维产生的城市中心主义环境立法倾向虽然在一定历史阶段具有合理性,但也带来一系列法治后果,如倾斜性立法资源配置会引发环境法治运行偏轨,