论文部分内容阅读
RNA-seq技术是后基因组时代功能基因组学研究的重要工具,可以量化生物在不同发育阶段以及不同环境下全基因组的转录水平,有助于研究者解析其内在的基因调控机制。然而,在获得高维复杂的RNA-seq数据后,如何进行深入的分析以挖掘重要的功能基因或者模块仍旧是一个亟待解决的重要问题。基因调控网络构建是RNA-seq数据分析中一种重要的手段,可构建基因之间的互作关系,从而确定关键的调控枢纽以及调控关系。现阶段基因调控网络构建的方法有多种,但这些方法还存在诸多不足。在本研究中,首先,考虑RNA-seq数据的离散性、高维性以及基因调控网络构建中的时空性,基于Skellam分布发展了一种新的聚类方法,降低基因表达数据的复杂度;第二,为进一步量化基因之间的互作效应以及克服现有网络构建中的边际效应,将博弈论与高维系统常微分方程相结合发展了一种全新的基因调控网络构建方法。当生物的生存环境发生改变时,其整体的基因调控会发生改变以适应新的环境,从而在空间水平产生基因的可塑性表达。针对RNA-seq数据的离散特性以及基因的可塑性表达,基于Skellam分布构建有限元混合模型,并在混合模型框架下对估计未知参数的EM算法进行推导。使用AIC准则确定最佳的聚类数。在获得基因聚类的基础上,提出两类具有生物学意义的假设检验对聚类内基因的差异表达以及不同聚类之间的表达模式是否存在差异进行检测。利用计算机模拟研究评估不同初值参数获取方法、基因表达数据不同标准化方法对新方法聚类性能的影响以及不同聚类方法在可塑性表达数据中的聚类性能。模拟研究表明基于模型的参数初值选择方法下聚类性能最高,标准化方法对聚类性能影响较小,与K-means以及SOM方法相比,新方法的聚类性能最高。模拟研究对新聚类方法的最佳聚类数量选择以及统计功效的检测表明AIC准则可准确选择出真实聚类数;每个聚类的估计参数与真实参数值比较接近。对胡杨盐处理根部动态转录组数据进行了初步分析,将获得的差异基因使用新的聚类方法进行分析,检验新聚类方法的适用性,同时挖掘与胡杨抗盐相关的可塑性表达模块。实际数据分析表明模块4是重要的可塑性表达功能模块。对实际数据分析获得的可塑性功能模块与差异基因GO分类的结果进行比较,结果表明新聚类方法表现出较好的性能。假设检验表明模块内基因在两个条件下动态表达呈现显著差异,而且不同聚类之间的表达模式显著不同。基因调控网络是一个复杂的动态高维系统,基于进化博弈论思想,结合高维常微分方程在系统水平刻画基因之间复杂的线性与非线性博弈关系以及量化基因之间的互作效应,基因之间的博弈关系可分为6类,分别为“双赢”、“两败俱伤”、“损人利己”、“助人为乐”、“损人不利己”以及“相安无事”。整合模型的参数估计方法,在最大似然估计或者非线性最小二乘框架内提出具有生物学意义的假设检验对系统内存在的互作基因进行检测;对估计的参数或互作效应曲线之间的博弈关系进行解释。基因调控网络的构建实施过程分为四步:第一,基因表达的可塑性表达聚类分析,降低数据的复杂度;第二,对聚类平均表达值或基因表达值进行平滑估计;第三,利用group LASSO和adaptive group LASSO技术完成显著互作基因的初步筛选;第四,对初步筛选的基因构建高维ODE,然后基于非线性最小二乘框架进行假设检验获取基因之间的博弈关系并估计基因之间的互作效应进而完成基因调控网络的构建。在实际数据分析中,利用新发展的基因调控网络构建方法所构建的可塑性表达模块网络中发现3个重要的枢纽模块,其中枢纽模块4包含大量的转录因子。对枢纽模块4所有基因进行基因调控网络的构建发现重要的枢纽基因中存在转录因子ERF061以及BHLH92等,这些转录因子可能与胡杨响应盐胁迫有关。在实际数据分析中,与其它方法相比,新方法构建的基因调控网络具有更好的生物学内涵,枢纽基因与胡杨的抗盐有较大相关性。计算机模拟研究表明新的方法具有较好的性能,与其它方法相比,真阳性率较高,假阳性率较低,且能够准确估计基因之间的互作效应。新发展的可塑性表达聚类方法能够挖掘基因的可塑性表达模式,在降低数据维度的同时,融入基因表达的时空模式,为基因调控网络的构建奠定基础;在可塑性表达聚类基础上,基于博弈论思想结合ODE所构建的调控网络在系统水平量化基因的互作效应。所开发的新方法适用于大尺度的动态RNA-seq数据分析,基于新方法所开发的开源软件可在网站ccb.bjfu.edu.cn自由下载。