基于网络模型的基因相关预测问题算法研究

被引量 : 0次 | 上传用户:zzzzzz1234566666
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
随着信息技术的飞速发展及各学科基本理论和技术的不断进步及相互渗透,逐渐兴起了多种交叉学科,例如生物信息学,以信息科学的计算方法和技术为手段,以数学理论和模型为基础,采用物理、化学等学科的理论方法及工具,开展生物学问题的研究;尤其是以计算机为主要分析工具的信息科学为生物信息学的发展提供了强有力的支撑。采用计算理论和方法解决生物信息学领域内的问题已经成为信息科学应用研究中极其重要的一部分。立足信息科学开展生物信息学领域内问题的研究,其中重要的一类是针对生物问题的预测算法研究,例如与复杂疾病的发生发展相关的疾病基因预测、基因功能预测、不同类型分子相互作用靶位点预测及相互作用关系的预测等,针对具体问题的预测研究为生物实验的开展和设计提供了有价值的参考,降低了大规模实验筛选的人力和物力消耗,加快了问题研究的进程,针对各种类型预测问题的算法研究不仅仅为生物问题的求解提供了有价值的参考和指引,同时也丰富了信息科学中算法研究的内涵,拓展了算法研究的外延,具有重要的理论意义和应用价值。本文以基因相关预测问题为研究对象,以生物网络为基础,从全局的、系统的观点研究问题的网络模型和预测算法。当然提出的网络模型和预测算法也可以应用于其他领域相关问题的研究中。具体而言,本文开展了以下研究工作并做出了相应的贡献:1.发现与复杂疾病的发生和发展密切相关的基因,也称之为疾病基因预测,是关系人类健康和医疗的挑战性问题,基因与复杂疾病关系的研究是对基因功能的深入理解和剖析。针对疾病基因预测问题,本文提出了一个新的、系统化的全局方法,通过集成蛋白质相互作用网络、疾病相似性网络和疾病与基因之间的关联网络构建混合网络模型,基于生物学假设—导致相同或者相似疾病的基因在生物网络中距离较近,通过挖掘混合网络模型中基因网络与疾病相似性网络之间的拓扑相关性,以及两个网络之间的关联关系发现新的疾病基因,为此定义基因与疾病之间的关联得分函数,设计实现了迭代算法求解关联得分函数,以关联得分来衡量基因与疾病的关联关系强弱,基于此预测与复杂疾病关联的疾病基因。采用10-fold的交叉验证实验对算法进行了分析与比较,其预测结果显著优于之前的一个经典方法PRINCE。最后,将本章提出的基于混合网络模型的疾病基因预测方法用于乳腺癌、阿尔茨海默病和二型糖尿病,发现了新的潜在疾病基因以及与疾病相关的网络模块,为后续实验研究提供了有价值的参考。2.长非编码RNA因其独特的生物特征和复杂的生物功能引起国内外广泛关注,但是目前已知功能的长非编码RNA数量极其有限,随着测序技术的发展,大量的长非编码RNA被实验鉴定,对其功能研究提出了迫切要求。为此,本文对长非编码RNA数据的生物特征进行研究和分析,涉及长非编码RNA的鉴定、数据特征和功能特异性,为大规模长非编码RNA的功能预测做特征分析和筛选。在此基础上,针对其功能研究现状,本文提出了一个基于双色网络模型的全局功能预测方法lnc-GFP(long non-coding RNA Global Function Predictor),该工作第一次采用基于网络的全局策略实现大规模长非编码RNA的功能预测。首先,通过集成基因共表达数据和蛋白质互作数据构建编码基因与非编码基因的双色网络,以反映长非编码RNA与编码基因的功能关联,为基于网络的大规模功能预测提供了基础。其次,设计了基于双色网络模型的信息传播算法,通过已知功能注释信息在双色网络中的迭代传播,实现大规模的长非编码RNA功能预测,通过合适的参数设置,预测准确率高达95%。最后,成功预测了鼠的双色网络中1625条长非编码RNA的功能,进一步对方法的准确性和鲁棒性以及预测结果的可靠性,从多个方面进行了充分的验证,交叉验证的实验结果以及广泛的文献验证结果表明本文提出的方法对于大规模长非编码RNA的功能预测是可靠的。ncFANs(non-coding RNAFunction Annotation server)是致力于长非编码RNA功能注释的第一个在线服务计算平台,在2011年发布。鉴于双色网络模型和大规模功能预测方法lnc-GFP的成功应用,以及长非编码RNA数量的不断增加,本文基于已有的功能注释平台ncFNAs,集成长非编码RNA全局功能预测方法lnc-GFP,设计实现了ncFNAs的升级版本—ncFANs2.0(http://www.bioinfo.org/ncfans/),全局功能预测算法的集成使得ncFANs2.0成为大规模长非编码RNA功能注释的综合服务平台,通过对多种生物数据的分析集成,实现快速大规模非编码基因功能注释。
其他文献
为优化地锦草颗粒成型工艺,以颗粒的成型率、硬度、水分含量为考察指标,采用正交试验对影响地锦草颗粒一步制粒过程的因素进行考察。最佳工艺条件为:浸膏相对密度为1.20,喷雾
<正>脑血管性痴呆是指发生在急性脑血管病基础上的以记忆、认识、语言、视空间功能及人格等方面缺损为主的获得性智能障碍综合征。其发病率逐渐上升,已成为严重影响中老年人
语文教育是人一生中不可缺少的教育环节,无论义务教育阶段还是职高普高,语文都作为一个重点学科出现在学生的课堂。语文教材就犹如大海航行的舵手一样指导着学生语文素养的发挥
经济全球化、知识经济时代、教育产业化大背景下,高等教育从昔日的精英教育已成为了今天的大众教育,一方面,高校面临着来自国内外竞争的双重压力,另一方面,高校还面临着为地方经济
通过对我国煤矿采掘装备的分析,阐述了建设区域性煤矿服务基地的必要性和可行性,介绍了区域性煤矿服务基地的主要功能;创新地提出了区域性煤矿基地建设的三种模式,并对神东基
近年来词汇的附带习得,尤其是观看微视频过程中词汇的附带习得研究较少,得到了二语研究者的普遍关注。本文概述了词汇附带习得和任务投入量假说的概念、必要性、影响观看视频过
自动化制孔技术是飞机数字化装配中的一项关键技术。目前,国外飞机装配领域已经广泛采用自动化制孔技术,在提高飞机机体结构疲劳寿命、安全性和气动性能等方面取得了显著成效
北京保存着历经千年演变逐渐成熟的民居建筑,构成了古北京特有的城市体系。在城市发展过程中由于经济、政治各种因素的影响,北京兴起了建筑拆改的风潮,于是古老的城市体系渐渐被
冬桔咽爽滴丸以冬凌草、桔梗、甘草三药组成处方。其中冬凌草性苦、甘、微寒,有清热解毒,活血止痛之功效;桔梗性苦、辛、平,归肺经,有宣肺、利咽、祛痰、排脓之功效;甘草性甘、
离心泵通常主要在稳定工况下运行,其工作转速、工况等基本不变或者变化非常缓慢,因此对离心泵的研究主要集中在稳定工况下进行。随着离心泵应用领域的拓展以及系统复杂程度的