论文部分内容阅读
生物体是一个极其复杂的系统,该系统控制着生物体在整个生命过程中的遗传、生长以及发育。不同种类生物体之间的差异,主要是由生物体所具有的全套遗传物质,即基因组的差异所决定的。在同一生物体内,不同类型的细胞所包含的基因组是一致的,然而,细胞内基因的表达具有一些特异性,如组织特异性、细胞周期特异性以及外界信号响应特异性。这些特异性导致不同的组织细胞之间或者相同的组织细胞在不同的生理状态下,基因的表达模式是迥异的。基因表达数据中包含了大量的基因活动信息。这些信息反映了细胞当前的生理状态,例如细胞是否处于正常(疾病)状态。随着高通量测序技术的发展以及各种新型有效的计算模型的引入,大规模基因表达数据分析取得了大量的关注。对基因表达数据的分析不仅有助于加深我们对于生命活动本质的理解,同时也可以从中挖掘大量有意义的生物知识以及所隐含的表达模式和调控机制。这些信息极大地促进了目前我们对疾病的理解、诊断以及治疗。本文分别从基因差异表达分析、基因共表达网络分析以及基因调控网络预测三个方面对基因表达数据进行研究分析。本文的创新点及贡献主要包括以下几个内容:1.基于泊松对数正态分布的基因差异表达分析。我们利用泊松对数正态分布来对第二代高通量测序数据进行建模。泊松对数正态分布不仅可以描述数据本身所表现的“过度分散”现象,还能够同时对低表达的基因和高表达的基因有较好的拟合度。然而,泊松对数正态分布的概率密度函数并不能表示成解析的形式。为了克服这一问题,我们通过分析在对泊松对数正态分布模型近似解析化过程中所存在的误差,提出一种提取基因子集的策略来减小这些误差对于参数估计的影响。模拟实验结果表明,选取基因子集策略可以极大地提高方差估计的精度。此外,我们还提出一种均值对数方法对基因在同一条件下表达水平的期望值的估计,该方法能够在保证估计精度的前提下,大大降低计算复杂度。最后,我们利用本文所提的基因差异表达分析算法与常用的基因差异表达分析算法分别对模拟数据和真实数据进行分析,实验结果表明本文所提算法可以取得较高的精确度和较强的鲁棒性。2.基于胃癌数据的基因差异共表达网络分析。基因的差异表达分析通常是对基因进行独立分析,而基因之间并非是完全独立的。基因共表达网络是分析基因间相互依赖性的有力工具之一。利用公开的胃癌基因表达数据,我们通过加权基因共表达网络分析算法分别构建了正常胃组织相关的基因共表达网络和胃癌组织相关的基因共表达网络。通过比较两个网络的拓扑属性之间的差异,我们发现一些与胃癌的发生密切相关的基因和模块。3.基于胃癌数据的基因共表达网络动态特性分析。致癌是一个涉及到逐步累积和相互作用的基因突变的复杂过程,基因的表达模式在不同的癌症时期也是不同的。为了对胃癌进一步的了解,我们根据临床数据,将胃癌数据进一步分为Normal、I期、II期、III期以及IV期五个表型,然后利用这五个表型的样本数据分别构建相应的基因共表达网络。通过分析不同表型基因共表达网络的动态变化,我们发现一些特异性的网络特征。例如,四个癌症表型所对应的共表达网络中基因的连通度与正常胃组织对应的共表达网络中基因的连通度相比有着显著的降低。另外根据基因连通度的动态变化,我们对基因进行Kmeans聚类。通过对聚类结果分析,我们发现三类基因与胃癌的不同时期有着密切的关系。4.基于多层次策略的基因调控网络预测。基因共表达网络反映的是基因表达之间的相互依赖关系,而基因之间的相互调控关系在其中并没有得到体现。在本文中,我们提出一种基于多层次策略的基因调控网络预测算法。首先我们利用有指导的正则化随机森林算法对基因调控网络进行初步预测,然后利用q范数归一化算法对上一步结果进行归一化处理,最后根据基因调控网络的稀疏特性,对预测结果进行进一步的精炼。为了验证所提算法的有效性,我们利用本文所提算法以及目前常用的基因调控网络预测算法分别对DREAM项目组所提供的基准基因调控网络进行预测并比较预测结果。结果表明,本文所提算法在大多数情况下均能取得较高的预测准确率和较强的鲁棒性,而且采取多层次策略可以显著地提高算法性能。