论文部分内容阅读
植物生长的过程中缺少水分,受到干旱胁迫会造成大面积的枯萎死亡,寻找植物与抗旱性相关的关键基因,对提高植物在干旱环境中的生存能力意义重大。基因芯片技术的出现及飞速发展为植物的抗旱性研究提供了一种全新的技术平台。然而,基因间存在复杂的互作关系,仅以传统统计方法和特征选择方法挖掘抗旱基因应用受限,基于分子生物网络对高通量基因表达数据进行分析和挖掘成为生物信息学的研究热点。本文针对拟南芥基因表达数据的特点,围绕加权基因共表达网络的构建、拟南芥抗旱基因的挖掘与基因功能分析展开了研究,主要结果如下:(1)基于最大信息系数(MIC)提取表达差异基因。拟南芥基因表达谱数据维数高达2万多,对其进行预处理并筛选出表达差异基因是构建基因共表达网络的关键环节。论文引入了兼具普适性与公平性的两变量关联算法最大信息系数,计算每个基因表达值和样本表型之间的MIC值,并基于MIC值大小得到全部基因的重要性排序,最后依据基因共表达网络构建规模来提取前N个作为表达差异基因。我们基于SVM和前i个(i=1,2……,s)排序基因对数据集分别实施10次交叉验证,结果显示,差异基因子集在可能存在冗余的情况下仍有较高的分类精度,从机器学习的角度验证了基于MIC所选差异基因的合理性。(2)基于加权基因共表达网络分析(WGCNA)挖掘抗旱性相关基因模块。基因共表达网络是以基因表达的相似性为基础而构建的分子生物网络,网络中致密的连通子图往往具有特定的生物学功能。基于WGCNA分析算法,构建拟南芥差异表达基因共表达网络,并通过分层聚类算法得到功能不同的基因模块。进一步,通过基因模块特征值与样本表型之间的相关系数,以及基因模块的显著性选取与拟南芥抗旱相关度高的基因模块。在对拟南芥基因芯片数据GSE27548和GSE10670的分析中,分别得到了3个抗旱性相关基因模块。(3)拟南芥抗旱基因的挖掘。基于蛋白质互作网络分析工具STRING,对获取的抗旱性基因模块的生物功能进行分析。在两个实验数据集的抗旱性相关基因模块中分别找到了20个、13个基因与水分胁迫响应相关。结果表明,我们的方法能有效挖掘出具有生物学意义的基因模块和关键基因,为植物抗旱性研究提供新的视角。