论文部分内容阅读
微阵列技术的发展,为基因调控网络的研究提供了数据基础,基因调控网络的构建是功能基因组中一个重要研究课题。基于贝叶斯理论的图模型具有坚实的理论基础、简单明了的知识表示、灵活的推理机制,是构建基因调控网络的一种强有力工具。基于贝叶斯理论的图模型,针对当前基因调控网络研究中存在的问题,本文的贡献如下:针对单个基因表达数据集中样本点缺乏问题,提出了分布式的MFD-GRN算法,融合了多个分布的静态基因表达数据集,构建基因调控网络,各个分布的数据集中含有相同的基因,不同数目的样本点。MFD-GRN算法分为两个过程:局部学习和全局学习。在局部学习中,利用搜索评分的方法,从每个基因表达数据集中,分别独立的学习贝叶斯网络结构;在全局学习中,基于相关性分析的方法融合局部结构,在融合过程中,把贝叶斯网络中节点对的互信息和条件互信息看作变量,取它们的数学期望,作为全局学习的评价标准。这样只传递了局部互信息和条件互信息到融合结点,没有直接获取局部个体数据,有效地保护了个体的隐私。针对时间序列基因表达数据,基于连续的动态贝叶斯模型,提出了TSMI-GRN算法,构建基因调控网络。TSMI-GRN算法定义了基因间的时序互信息,利用协方差矩阵计算时序互信息,并且考虑了其它所有基因对这两个基因间互信息的影响,与传统的互信息比较,增加了时间特性,与基因表达数据的特点相吻合。针对基因调控网络会随时间变化而变化的问题,基于变结构的动态贝叶斯模型,提出了VS-GRN算法,融合多源数据构建变结构的基因调控网络。该算法分为三阶段。第一个阶段:分割多元时间序列为若干个平稳时间片。我们定义了一个平稳性测量函数,提出了一个平稳性分割算法。第二个阶段:在每个平稳时间片中学习贝叶斯网络。提出了P-BIC评分函数,融合了基因表达数据和蛋白质-蛋白质相互作用数据,来学习贝叶斯网络。第三个阶段:在相邻平稳时间片间学习转移网络。本文针对不同的问题,基于贝叶斯理论的图模型,提出了三个学习算法,对基因调控网络的构建方法进行了深入探讨,并在真实的基因表达数据集上,测试了这些算法,将学习结果与已有的贝叶斯模型算法进行了比较,分析了算法的生物学意义及有效性。