论文部分内容阅读
我国白血病的发病率在各种肿瘤中排第六位,白血病是一种造血干细胞恶性疾病,我国每年每10万人中大约有2.76人患白血病.急性髓细胞白血病(AML)是髓系造血干细胞恶性疾病,我国每年每10万人中有1.62人患急性髓细胞白血病.随着人类基因组计划的逐步实施,越来越多基因序列得以测定,基因序列数据正在以前所未有的速度迅速增长.基因芯片的出现为研究基因序列数据提供了光辉的前景,基因芯片可以应用于疾病的诊断,对疾病进行快速鉴定分类,为早期诊断和治疗创造条件.患急性髓细胞白血病的儿童和成人进行基因芯片分析能显著改善诊断的精确度,有助于更好地治疗这种疾病.基因芯片数据可以看作一个矩阵,对基因芯片数据的研究都建立于该矩阵基础上,大数据量、高维数是基因芯片的显著特征,直接分析基因芯片数据计算量大、耗费时间长,而且成本高,对基因芯片数据进行降维后,相关研究人员可以更高效快速地获取基因芯片包含的信息.本文针对急性髓细胞白血病基因芯片,主要探讨该基因芯片数据的降维方法,从而达到更高效、更准确地提取基因芯片信息的目的.本文创新性地提出Bootstrap和主成分分析相结合的思想,首次将Boot-strap方法(Bootstrap是指用原样本自身的数据抽样得到新的样本及统计量)应用到基因芯片数据主成分降维分析中:当以基因为变量时,假设一组随机变量X=[X1,X2,…,Xn]T,在该组随机变量中作有放回抽样,得到Bootstrap样本组,并求该样本组相关系数的特征值λb(1 ≤ b≤B)和特征向量1 ≤ b≤B),重复上述步骤B(B ≥ 1000)次,将B组λb的平均值作为Bootstrap-主成分的方差贡献率;用B组aijb的平均值修正主成分分析原始变量线性组合的系数,从而提取出Bootstrap基因主成分,优化小样本情况下PCA的结果.本文具体研究内容包含以下六个部分:1、AML基因芯片数据的预处理本文从国家生物技术信息中心(NCBI)的GEO基因数据库中获取急性髓细胞白血病基因芯片数据矩阵,筛选出差异显著性检验P值分别满足P<0.05、P<0.01、P<0.001的三组数据集,以便于结果对比验证.2、AML基因芯片数据的主成分降维分析本文以芯片为变量对上述三组数据集分别进行主成分分析(PCA),选取三个主成分,将第二、三主成分的基因得分排名,分别选取得分绝对值靠前的基因,得到差异显著表达的基因.三组数据集中HOXA9基因出现频率较高,表明HOXA9基因显著表达,在急性髓细胞白血病中HOXA9起着至关重要的作用.以基因为变量作主成分分析时,由于样本数远小于变量数,传统主成分分析结果不佳.3、AML基因芯片数据的Bootstrap-主成分降维分析本文对三组数据集分别运用Bootstrap-主成分分析,对比传统PCA的结果,要使累积方差贡献率大于80%,Bootstrap-主成分分析选择的主成分个数更少.4、基于Bootstrap基因主成分的线性回归将Bootstrap-基因主成分记为自变量Fj,将两类急性髓细胞白血病记为因变量y,建立线性回归方程:y= β0+β1F1+β2F2+…+βnFn,随机抽取部分样本得到回归方程的系数,再用未被抽取的样本数据代入验证,结果发现该线性回归方程可以用于判断样本类别.5、AML基因芯片数据的稀疏主成分降维分析本文利用稀疏主成分分析使尽可能多的因子载荷为0,但与主成分分析相比,随着负载因子为0的变量越多,方差贡献率越小,稀疏主成分相比主成分丢失了更多信息,对于本文的AML基因芯片数据,该降维方法不佳.6、AML基因芯片数据的聚类分析本文对比了层次聚类的几种距离算法的MATLAB运行时间和结果优度,综合来看,本文选取最远距离算法效果较好;运用K-means聚类时,MATLAB运行时间显著缩短.同时,本文分别运用层次聚类和K-means聚类对芯片样本进行分类准确度验证,P<0.05和P<0.01数据集运用K-means聚类分类精准度更高,P<0.001数据集运用层次聚类分类精准度更高,所以当样本量较小时,层次聚类优于K-means聚类;当样本量较大时,K-means聚类在时间和精度方面都优于层次聚类.综上,以芯片为变量进行主成分分析可以筛选关键基因;以基因为变量进行Bootstrap-主成分分析,建立线性回归方程可以判断样本类别,对确定疾病种类有重要意义,但是Bootstrap-主成分分析比主成分分析MATLAB运行时间久;聚类分析通过合并相似基因降低基因维数,也适合对基因芯片数据进行样本分类,当数据量较大时,基因分类和样本分类更适合用K-means聚类;当数据量较小时,利用层次聚类方法进行样本分类精确度更高;