论文部分内容阅读
生命系统是一个相互作用的自组织系统,存储生命信息的各基因并不是孤立地发挥作用,而是通过形成复杂的基因调控网络来推动生命演化。基因调控网络研究是计算机科学、数学、信息学向分子生物学渗透形成的交叉点,在分子生物学、数学和程序算法设计等基础上,运用生物信息学的方法和技术,通过数据采集、分析、建模、模拟和推断等手段,整合已有的实验数据和知识,研究复杂的基因调控关系。基因调控网络是由细胞中参与基因表达调控的DNA、RNA、蛋白质以及代谢中间物所形成的相互作用的网络。基因调控网络从系统的角度阐述细胞的功能、基因调控过程,在全基因组水平上解释生命现象及其本质,作为系统生物学的一个重要的组成部分已成为目前研究的热点。
本文对基因表达数据进行预处理,根据其时序性进行多时延处理并确定基因间最佳调控时延,融合基因表达数据和转录因子连结位点数据,利用机器学习的理论研究基于动态贝叶斯网络模型构建基因调控网络的方法。主要工作和研究成果如下:⑴根据基因的表达要经过一个过程,基因间的调控具有时间延迟且不同基因间的调控时间延迟具有差异性等生物的基本生理机制,提出了一种在基因调控网络的构建中根据基因表达数据时序性进行多时延处理的方法。此方法计算各基因间相互关联程度,依据基因间最强的关联度确定靶基因的父节点和最佳调控时延数,以此形成初始调控网络并确定相关基因间的调控方向。⑵提出了一种基于动态贝叶斯网络模型,采用多源数据融合的构建基因调控网络的算法。该算法基于动态贝叶斯网络将贝叶斯网络与时间信息相结合,以概率网络为基础,形成处理时序数据的随机模型,这符合生物基因调控的特性。根据转录因子连结位点数据和基因之间存在调控关系的可能性成反比,将转录因子连结位点数据加到动态贝叶斯网络打分函数中,使基因表达数据和转录因子连结位点数据有效的融合,提高基因调控网络构建的效果。采用多源数据融合可在基因调控网络的构建中充分体现基因、转录因子等各种调控元件在细胞内部活动中的重要作用,同时减弱基因表达数据的大维度小数据量的问题。⑶提出了多时延多数据融合方法(LC-DBN)进行基因调控网络的构建。LC-DBN方法是在数据预处理的基础上,将基因表达数据进行多时延处理,引入转录因子连结位点数据作为先验知识,融合基因表达数据和连结位点数据,基于动态贝叶斯网络模型构建基因调控网络。其中,融合基因表达数据和转录因子调控耦合强度数据的LCC-DBN方法中首次将转录因子coulpingP值作为先验知识,提高了先验知识的确定性,也证实了Gao等人有关转录因子只有耦合到转录起始位点上才能启动转录的结论。
(4)利用本文所提出的算法针对酵母细胞的部分基因进行构建基因调控网络的实验,构建基因调控网络评价结果显示,LCC-DBN方法构建的基因调控网络优于Bernard方法或Tan方法构建的基因调控网络。本文所提出的方法在构建基因调控网络方面取得了一定成果,但利用机器学习等方法预测基因调控网络的研究将随着相关数据库的建设和新方法的提出在不断发展,此项研究在较长时间内仍将是生物信息学研究的热点之一,本课题的研究工作还会进一步深入和完善。