DNA微阵列数据的变量选择方法研究

来源 :中南大学 | 被引量 : 2次 | 上传用户:zhang123gang
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
近年来,随着DNA微阵列技术的迅猛发展,产生了大量基因表达谱数据,并被广泛应用于癌症的诊断与分型。DNA微阵列技术可以在一次实验中记录在不同样本条件下成千上万的基因表达数据。面对如此庞大的数据矩阵,生物信息学方法如:聚类分析,判别分析以及回归分析等方法被用来解析及挖掘数据中所蕴含的知识。由于基因表达数据本身所特有的小样本,高维性特点,要求在建立模型之前首先对数据进行变量挑选,本文主要对不同的变量选择方法进行了研究以及比较,并提出了一种新的变量选择方法,具体内容为:   1.在基于模型聚类分析法(MPA)以及无信息变量消除法(UVE)的基础上,本文提出了一种新的变量选择方法,Noise Incorporated Subwindow PermutatiovAnalysis(NISPA),并将这种方法与支持向量机相结合。NISPA不仅解决了常见的变量选择方法难以克服的模型稳定性问题,并且更为科学的以噪音变量为参照标准来划分变量,而不是常见的人为划分。该方法的核心在于使用添加的噪音变量的重要性分布作为参照标准来评估每一个基因变量,将所有变量分为三大类,分别为:有信息变量,无信息变量(噪音)以及干扰变量。与传统的变量选择方法只能鉴定出有信息变量以及噪音的特点相比,NISPA更是首次辨识出来对模型的影响比噪音更差的一类变量,即干扰变量。结合有信息变量以及干扰变量,更能全面了解疾病的病理途径,对癌症的准确诊断与分型带来可能。本文采用了两个公开发表的癌症数据Colon以及Estrogen来测试NISPA的运行效果,结果显示经由NISPA筛选出来的有信息变量可以显著提高模型的预测准确率,是一种较好的变量选择方法。   2.本文从以下三个方面进一步对NISPA算法进行了分析:(1)对比Q=1的NISPA与常见的单变量选择方法,如:Pearson相关系数法、Spearman秩相关系数法,结果表明,Q=1的NISPA与单变量选择方法在不同的数据上具有不同的一致性程度,且Q=1的NISPA筛选出的变量优于其他单变量选择方法;(2)对比Q=1的NISPA与最优Q值(Q>1)的NISPA,发现这两种条件下计算出的变量重要性值具有较大差异,且最优Q值条件下筛选出的变量能显著提高模型预测准确率,表明变量与变量之间的相互作用对最终挑选出的有信息变量影响非常大;(3)对比NISPA与其他的多变量选择方法,如:基于序列前向选择的变量选择方法(SFS)以及迭代特征消除法(RFE),留一交叉验证结果表明NISPA具有较强的竞争能力,是一种较好的变量选择方法替代法。  
其他文献
We studied the relationship between soil fertility indicator and angelica yield and quality by the methods of correlation analysis and path analysis. The result
可再生能源的储存、转化技术为解决当前化石燃料的快速消耗以及环境污染问题带来了新的希望,其中电催化受到了人们的广泛关注。氧还原反应(ORR)和氧析出反应(OER))是很多能量
PBS作为脂肪族聚酯中最有使用前景的生物降解高分子材料,对其降解性能与降解理论的研究不可或缺,本实验采用固定化脂肪酶对PBS及其共聚改性物进行降解研究,深入理论分析。  
按照农业部《肥料登记管理办法》、《肥料登记指南》和《肥料效应鉴定田间试验技术规程》(NY/T497-2002)的要求,为验证“喷施宝”叶面肥在河南省小麦生产上的应用效果,特安排
小袋鼠摘果子,装进大肚子。用七巧板拼拼大肚子的袋鼠,下面有正确拼法可以参考哦。
本论文的研究目标是发展一种简单、新颖的贵金属单分散纳米晶的液相制备方法。研究中利用碳酸氢铵在水热条件下所分解产生的氨的还原性来还原制备单分散Au纳米晶,并通过表征和分析探明了其还原与控制生长机理。同时实验中还研究了所制备Au纳米晶的催化和SERS性能。主要内容总结如下:该反应体系以碳酸氢铵为还原剂,硬脂酸钠为稳定剂,在160°C的水热条件下反应3小时,制备得到了9 nm的单分散金纳米晶。同时金纳米
[Objective] To study the effects of different hormone pretreatments on the germination of Mentha arvensis (peppermint) seeds. [Method] Effects of different horm
上世纪七十年代世界石油危机的冲击,使人们认识到石油资源的有限性,因此开发利用我国丰富的煤和天然气资源,发展碳一化工具有重要的战略意义和经济意义。其中,由一氧化碳出发
为了解四川毛木耳主栽区发菌棚内外的细菌数量和主要种类,在四川省毛木耳主栽区的接种季节,对毛木耳发菌棚内外空气中24 h的细菌数量进行检测,并分析了其与棚内外空气温度和