论文部分内容阅读
随着生物信息学的迅速发展,在差异表达基因鉴别和基因功能分类的基础上,系统的研究基因或者蛋白质之间的相互作用关系,建立基因及蛋白质调控网络,理解生物系统的内在模式和机制就成为当前的迫切需要和研究热点。目前,用于基因调控网络建模的模型主要有以下几种:有向图、布尔网络、贝叶斯网络、微分方程、随机方程等。微分方程模型的形式包括常微分方程,偏微分方程和随机微分方程。在分析基因调控网络时,需要选择某种形式的调控函数来描述基因之间的作用关系,选择模型结构可以尝试的方法之一是绘制目标基因与每个可能的调控基因之间表达数据的散点图,通过对散点图的观察做出决定;其次是对几种可能的模型都进行参数估计,最终选择均方误差MSE最小或决定系数R 2最大的模型。本研究中,鉴于sigmoid函数具有良好的数学性质,最终选择该函数作为调控函数。调控网络构建中最关键的问题之一就是系统中包含的基因数远远大于观察的时间点数,所以无法进行有效的参数估计。由生物学知识已知一个基因的调控基因是有限的,基于此本文首先筛选出要研究的目标基因的调控基因,然后再针对各个目标基因建模。相关系数可以被用来度量两个基因之间的作用强度,但相关系数有其局限性。我们提出使用多项式回归衡量两个基因之间非线性关系的强度。对系统中每个基因与目标基因进行多项式回归分析,选择根均方误差RMSE较小的基因为调控基因。最后综合相关分析与多项式回归的结果,选择有限的几个基因作为调控基因,从而达到降低维数的目的。模型中参数值的估计可以用传统迭代方法,但这些方法获得的解有可能只是局部最优解,甚至迭代过程根本就无法收敛;本文也使用新兴的优化方法遗传算法估计参数,同样,遗传算法也存在早熟现象,也就是很快收敛到局部最优解而不是全局最优解。本文将这两种算法结合,在独立应用Gauss-Newton法和遗传算法分别估计出参数的值之后,首先把遗传算法的参数估计值作为初始近似值赋予Gauss-Newton法,然后再次执行迭代过程,观察结果是否能够有所改进,或者初始值的重新赋值能否促使迭代的收敛;其次,以Gauss-Newton法中得到的残差平方和作为遗传算法适应度的预先设定值,以此为终止条件再次运行遗传算法,看能否达到优化的目的。建立基因调控网络模型的目的在于求解模型的解,并根据解来讨论系统的性质。对于线性系统,调控网络的信息都包含在系数矩阵之中,它的求解也有通用的一般方法。对于非线性系统,在大多数情形下,求得解析解的可能很小,普遍的做法是用数值方法求解。稳定性问题是动态系统理论的首要问题,也是微分方程定性理论的内容之一。对稳定性的分析主要是根据А.М.Ляпунов的稳定性理论。本研究中,酿酒酵母的基因表达数据被用来建立调控网络。选择10个基因作为目标基因,经过筛选,确定每个目标基因的5个可能的调控基因。然后针对每个目标基因,分别使用传统迭代算法和遗传算法估计模型中的参数值,最终再将两种算法结合寻找更优的结果。通过对比发现,算法结合使用后确实使结果得到了相当大的改进,不同算法之间的配合取得了很好的效果。本文对基因网络调控模型的建立、系统的求解以及系统性质的分析做了初步的研究和探索,提出了一些积极的思路和想法,得到了一些有意义的结果,为今后的研究做了一些铺垫。当然,要在实际应用中真正发挥作用,还需要与生物学研究更好的结合,以及对部分问题更深入的探究。