基于稳定稀疏主成分的基因表达数据聚类分析方法

来源 :黑龙江大学 | 被引量 : 0次 | 上传用户:lj445566
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
癌症如今已成为人类历史上最难治愈的病症之一,癌症的基因表达数据也逐渐让科研工作者们更加关注,越来越多的人意识到通过对基因表达数据类别的划分可以较快速地发现不同的病变细胞,聚类分析的统计学方法可以帮助我们对疾病的病症进行诊断.然而,目前我们通过实验获得的基因表达数据仅有十几或几十个样本量,而每个样本数据却有上万个基因表达数据,这样具有高维度、小样本的基因表达数据,其中包含着大量的冗杂和干扰实验结果的信息,我们如果利用现有聚类方法将这些数据直接使用聚类分析,往往只能得到准确度很差的结论.在本文中,提出基于稳定稀疏主成分的基因表达数据聚类分析方法问题,稳定稀疏主成分即用稳定选择的方法寻找稀疏因子,不仅有最大方差,还能具有强解释性.我们首先介绍主成分分析是生物信息学中常用的一种基本可视化和降维工具.然而,我们知道主成分可能无法持续估计具有分子数据的典型特征的高维度、低样本中,最大可变性的真正方向.而且载荷因子往往都是非零的,这样一种特点让主成分并不能拥有很强的解释能力.大多数稀疏主成分是在回归分析中变量选择的Lasso理论的基础上提出的,但是,众所周知,Lasso在高维度中缺乏变量选择的一致性,因此,对所选基因产生误导的结果.这种方法不具备稳定性.所以提出了将稳定选择重抽样和向前选择应用于稀疏主成分中获得稳定的稀疏主成分.以上三种方式都可结合K-均值及层次分析的聚类分析方法对GEO数据进行分析.比较三种方法聚类分析准确度.最后,我们应用2个GEO基因表达数据集使用上述过程分析,从实验结果看,我们得到了基于稳定稀疏主成分,运用基因表达数据的聚类分析方法准确度更高.
其他文献
1病例报告患者,男,25岁,因右腮腺混合瘤入院。术前体检未发现手术禁忌症,于全麻下行腮腺浅叶+肿瘤切除术+面神经解剖术。术中见白色纵向走行的耳大神经后支,仔细沿神经向下分离
课程思政教育是当前各高校专业课程教学改革的新尝试,也是各所高校高度关注的新举措。"通信原理"是作者所在学校工科专业的一门重要专业基础课,也是国内多所高等院校的考研专
目的通过对肺结核患者的营养状况调查和对照分析,探讨该类患者合理的营养支持建议。方法将本院2006-2008年住院的82例肺结核患者设为试验组,将本院体检的正常人群78例作为对照
词汇习得是第二语言学习者语言习得的一个重要内容.Nattinger和DeCarrico从一个新的角度指导学习者在第二语言词汇习得过程中使用"预制语块"来学习如何生成、理解、分析新的
介绍了小麦根长的动态变化、根重的动态变化、根表面积及根系活力和根系的空间动态分布变化的一些研究结果 ,提出了今后应加强根系大小对冠层生长的作用与功能及根冠关系、根
当前大学生人文素质教育的广度和深度有了很大的扩展,地方历史文化又在大学生人文素质教育中具有重要的价值,高校可充分利用地方历史文化的丰富资源,并结合自身实际,通过切实
液压油缸内用作支承衬套的非金属材料一般是尼龙1010和聚甲醛.二者在机械性能方面相近,但耐高温性能差异较大.故经常处于较高工作温度下的液压油缸应选用聚甲醛做支承衬套.
为了提高大学生就业率,促进创新创业教育的发展,文章分析了新挑战下高校创新创业教育存在的问题,然后从学校层面、教师层面、社会层面指出了新挑战下高校创新创业教育的实施
介绍了混凝土喷射机的工作原理、工艺特点、发展过程,分析了干喷工艺与湿喷工艺的优缺点及国内外混凝土喷射技术的应用情况。湿喷混凝土具有许多技术优势,可保证初期支护的效
应用系统工程理论方法构建区域产业技术自主创新系统模型,分析了各要素的系统功能,阐述了区域技术创新对区域产业的相互促进作用及区域产业技术创新系统的运行过程,并从市场机制