论文部分内容阅读
随着信息技术的飞速发展及各学科基本理论和技术的不断进步及相互渗透,逐渐兴起了多种交叉学科,例如生物信息学,以信息科学的计算方法和技术为手段,以数学理论和模型为基础,采用物理、化学等学科的理论方法及工具,开展生物学问题的研究;尤其是以计算机为主要分析工具的信息科学为生物信息学的发展提供了强有力的支撑。采用计算理论和方法解决生物信息学领域内的问题已经成为信息科学应用研究中极其重要的一部分。立足信息科学开展生物信息学领域内问题的研究,其中重要的一类是针对生物问题的预测算法研究,例如与复杂疾病的发生发展相关的疾病基因预测、基因功能预测、不同类型分子相互作用靶位点预测及相互作用关系的预测等,针对具体问题的预测研究为生物实验的开展和设计提供了有价值的参考,降低了大规模实验筛选的人力和物力消耗,加快了问题研究的进程,针对各种类型预测问题的算法研究不仅仅为生物问题的求解提供了有价值的参考和指引,同时也丰富了信息科学中算法研究的内涵,拓展了算法研究的外延,具有重要的理论意义和应用价值。本文以基因相关预测问题为研究对象,以生物网络为基础,从全局的、系统的观点研究问题的网络模型和预测算法。当然提出的网络模型和预测算法也可以应用于其他领域相关问题的研究中。具体而言,本文开展了以下研究工作并做出了相应的贡献:1.发现与复杂疾病的发生和发展密切相关的基因,也称之为疾病基因预测,是关系人类健康和医疗的挑战性问题,基因与复杂疾病关系的研究是对基因功能的深入理解和剖析。针对疾病基因预测问题,本文提出了一个新的、系统化的全局方法,通过集成蛋白质相互作用网络、疾病相似性网络和疾病与基因之间的关联网络构建混合网络模型,基于生物学假设—导致相同或者相似疾病的基因在生物网络中距离较近,通过挖掘混合网络模型中基因网络与疾病相似性网络之间的拓扑相关性,以及两个网络之间的关联关系发现新的疾病基因,为此定义基因与疾病之间的关联得分函数,设计实现了迭代算法求解关联得分函数,以关联得分来衡量基因与疾病的关联关系强弱,基于此预测与复杂疾病关联的疾病基因。采用10-fold的交叉验证实验对算法进行了分析与比较,其预测结果显著优于之前的一个经典方法PRINCE。最后,将本章提出的基于混合网络模型的疾病基因预测方法用于乳腺癌、阿尔茨海默病和二型糖尿病,发现了新的潜在疾病基因以及与疾病相关的网络模块,为后续实验研究提供了有价值的参考。2.长非编码RNA因其独特的生物特征和复杂的生物功能引起国内外广泛关注,但是目前已知功能的长非编码RNA数量极其有限,随着测序技术的发展,大量的长非编码RNA被实验鉴定,对其功能研究提出了迫切要求。为此,本文对长非编码RNA数据的生物特征进行研究和分析,涉及长非编码RNA的鉴定、数据特征和功能特异性,为大规模长非编码RNA的功能预测做特征分析和筛选。在此基础上,针对其功能研究现状,本文提出了一个基于双色网络模型的全局功能预测方法lnc-GFP(long non-coding RNA Global Function Predictor),该工作第一次采用基于网络的全局策略实现大规模长非编码RNA的功能预测。首先,通过集成基因共表达数据和蛋白质互作数据构建编码基因与非编码基因的双色网络,以反映长非编码RNA与编码基因的功能关联,为基于网络的大规模功能预测提供了基础。其次,设计了基于双色网络模型的信息传播算法,通过已知功能注释信息在双色网络中的迭代传播,实现大规模的长非编码RNA功能预测,通过合适的参数设置,预测准确率高达95%。最后,成功预测了鼠的双色网络中1625条长非编码RNA的功能,进一步对方法的准确性和鲁棒性以及预测结果的可靠性,从多个方面进行了充分的验证,交叉验证的实验结果以及广泛的文献验证结果表明本文提出的方法对于大规模长非编码RNA的功能预测是可靠的。ncFANs(non-coding RNAFunction Annotation server)是致力于长非编码RNA功能注释的第一个在线服务计算平台,在2011年发布。鉴于双色网络模型和大规模功能预测方法lnc-GFP的成功应用,以及长非编码RNA数量的不断增加,本文基于已有的功能注释平台ncFNAs,集成长非编码RNA全局功能预测方法lnc-GFP,设计实现了ncFNAs的升级版本—ncFANs2.0(http://www.bioinfo.org/ncfans/),全局功能预测算法的集成使得ncFANs2.0成为大规模长非编码RNA功能注释的综合服务平台,通过对多种生物数据的分析集成,实现快速大规模非编码基因功能注释。