论文部分内容阅读
高等真核生物的基因在不同发育阶段、组织分化、环境变化等过程中表现出不同的表达模式,这是基因调控网络根据各个细胞的功能要求,以一种系统的、协调的方式调控每一个基因的表达,精确地控制着每种蛋白质的水平,从而使生物体实现“预定”的、有序的生长发育过程,并使各个器官组织在一定环境条件下保持正常的生理功能。基因调控网络相当于是细胞的神经中枢,指挥和控制着每个基因的时空特异性表达。高等真核生物的基因调控网络是一个复杂的、动态的、多层次反馈系统,构建基因调控网络是后基因组时代一项意义重大而又艰巨的任务,在系统生物学与计算生物学领域掀起了一股研究热潮。本文致力于利用基因表达数据,以建模的方法来学习基因调控网络,主要内容包括以下三个方面:1.提出一种新的贝叶斯网络学习算法并应用它从基因表达数据中学习基因调控网络。现有的贝叶斯网络学习算法常因为基因表达数据包含的基因数目大实验样本少而失败,本文提出一种分治算法,将待学习的贝叶斯网络分解成若干小的网络,独立地学习这些小的网络,之后将他们组合起来得到最终的贝叶斯网络。通过将网络进行分解,降低了网络规模和计算复杂度,有效地解决了基因数目大而实验样本少的问题。将其应用于学习酵母的基因调控网络,并与生化实验的结果进行比较,结果表明我们提出的方法具有很好的性能;2.学习量化的转录调控网络。大部分现有方法偏重于识别基因之间是否存在定性的调控关系,忽略了转录调控过程的定量关系。本文从酶动力学角度,在假设基因的转录与mRNA降解处于平衡状态的基础上,提出一种产生式模型。该模型用转录因子的浓度、转录因子与结合位点的结合能和其他动力学参量来描述基因的表达水平,具有丰富的表达能力。在酵母数据集上的实验结果表明该模型能准确地推测出转录因子的浓度,并预测转录因子的调控方向(诱导或抑制);3.预测microRNA的靶基因。人们越来越认识到microRNA(miRNA)是一类和转录因子几乎同等重要的转录后调控子,是基因调控网络不可或缺的成员。构建包含miRNA在内的基因调控网络具有重要的意义,而识别miRNA靶基因便是其中最重要的环节。本文提出了两种miRNA靶基因识别算法:基于二分图邻近传播的方法和基于监督距离学习的方法。第一种方法先通过数据分析表明miRNA主要参与了两类调控环路,然后提出一种二分图上的邻近传播算法来识别miRNA的靶基因。在人类数据集上的实验结果表明,这种方法大大提高了miRNA靶基因预测的准确率;第二种方法则将miRNA靶基因的识别视为一个二分图学习问题,进而转化为基于核的监督距离学习问题。采用实验验证过的人类miRNA-mRNA调控关系作为训练集,实验结果表明该方法具有比现有大多数方法更好的预测能力。本文提出的四种方法相继用于从基因表达数据中学习定性的、定量的、以及包含miRNA在内的基因调控网络,形成了一套系统的方法,为研究基因调控网络提供了有力工具。