数据整合方法构建大鼠分子相互作用网络

来源 :北京大学 | 被引量 : 0次 | 上传用户：a4205685

【摘要】

：

随着人类基因组计划的完成和高通量技术的不断进步，系统生物学得到了长足的发展。以往那种局限于少数基因或蛋白质的研究已经远远无法满足人类探索生命这个复杂系统的需求，而系

【作者】

：

张哲

【机构】

：

北京大学

【出处】

：

北京大学

【发表日期】

：

2009年期

【关键词】

：

系统生物学数据整合分子相互作模式识别数据质量

下载到本地 , 更方便阅读

下载此文赞助VIP

声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架

论文部分内容阅读

随着人类基因组计划的完成和高通量技术的不断进步，系统生物学得到了长足的发展。以往那种局限于少数基因或蛋白质的研究已经远远无法满足人类探索生命这个复杂系统的需求，而系统生物学的出现使人类得以从整个基因组、蛋白质组、相互作用组的水平上对生物的微观特性进行建模和分析。本文遵循系统生物学的研究理念，采用数据整合方法来构建大鼠的分子相互作用网络。大鼠与人类具有紧密的同源关系，关于大鼠的研究结论将对人类的病理探究和治疗方案制定产生重要的借鉴意义。　　本文选用与大鼠心室肥大相关的基因芯片，选取其中的730个差异表达基因作为目标分子。为使数据整合模型能够从全面的角度对分子相互作用网络进行预测，本文挑选了4种异质的数据类型：基因表达谱、基因表达序列、蛋白质亚细胞定位和直系同源数据。不同的数据类型经过相应的算法处理生成5种证据：Pearson相关系数、SVM模式识别、基因编码序列相似性、蛋白质亚细胞定位的距离以及直系同源比对，每一种单项证据都从特定的角度对目标分子间是否存在相互作用进行概率估计。由于生命是一个非线性的复杂系统，线性算法往往无法取得最佳的模拟效果，因此本文除采用Pearson相关系数等常用线性算法外还特别引入支持向量机——用于模式识别和概率密度估计的机器学习算法。结果表明，无论是在单项证据的处理中，还是多种证据的整合过程中，支持向量机均凭借其强大的非线性处理能力取得了优于其他算法的判别效果。仅仅对不同证据进行单独处理是不够的，更重要的是如何加以整合。这也是系统生物学者们长期困惑的问题。为了解决这一难题，本文首先将5种证据的计算结果通过高斯核密度变换转化为P值，然后在此基础上设计了两种新型整合方法：基于灵敏度的加权整合法以及SVM整合法。该两种方法在度量不同证据对最终判别结果的贡献度的基础上，为各种证据分配不同的权重，与简单的平均权整合法相比，新方法更具合理性和可解释性。　　通过ROC曲线的对比，本文发现数据整合模型的预测效果要明显优于单项证据。部分单项证据例如SVM模式识别虽然本身也具有较高的灵敏度和特异度，但毕竟受到基因芯片数据高噪声的影响，使判别精度受损。多证据整合保证了异质的数据之间能够取长补短、从而获得对研究对象更加全面、客观的认识，也就是说即使一对分子相互作用在某种证据下不被识别，数据整合模型也可以依据在其它证据下的综合表现将该相互作用挖掘出来。在本文采用的三种整合方案中，SVM整合法的效果最佳。在P值小于0.01的显著性水平下，SVM整合法共预测出2659个分子相互作用，灵敏度和特异度分别达到0.0738和0.9904。该分子相互作用网络明显具备无尺度网络的三大特征：可扩展性、偏好连接性和鲁棒性。由于受到实验条件的限制，本文无法进行微扰实验，只能在已知相互作用的基础上进行子网络的提取。通过与KEGG等数据库的比对发现，本文提取的子网络中确实包含着与大鼠心室肥大相关的重要信号转导通路。然而由于数据可获得性和数据质量等方面的因素，本文数据整合模型的判别效率与目前系统生物学的先进水平相比，还存在一定差距。　　本文仅仅是对大鼠细胞内分子相互作用网络研究的一次尝试和探索，旨在为未来的实验验证或是其他研究者提供一些借鉴。随着高通量技术的不断进步，基因组学、蛋白质组学以及其它组学的飞速发展，将不断有新的数据类型诞生，数据质量也会不断提高，数据整合模型将不断得到完善，人类对于大鼠等模式生物乃至人本身的了解将会愈加深入、精确。

其他文献

新形势下提高煤炭企业政工战斗力对策论述

在当前时期,国内经济呈现出良好的发展趋势,这为煤炭企业的发展奠定了坚实的基础.从煤炭企业管理的现状来看,问题是较多的,这就要求企业必须完成好政工工作.对于煤炭企业而言

期刊

新形势煤炭企业政工队伍战斗力强化策略

关于国有企业改革若干问题的思考

中国的国有企业改革已有四十多年的历史,在整个改革开放过程中,国有企业所占的比重一直很大,对经济发展的贡献也很突出,但是随着经济形势的变化,国有企业的发展也遇到了很多

期刊

国有企业改革分析

基于改进的SVM模型的肝癌识别方法的研究与实现

肝癌是我国最严重的恶性肿瘤,高死亡率和高年增率已达世界之最。早期诊断与治疗是降低肝癌患者死亡率的重要举措。在肝癌早期的诊断方法中,由于CT图像的分辨率高,对人体损伤

学位

肝癌CT图像特征提取特征选择SVM网络模式识别

蛋白激酶结构功能模拟研究及其抑制剂设计

蛋白激酶是细胞内最大的蛋白家族之一,参与细胞生长、分裂和凋亡等多种生理过程。调节机制失控的蛋白激酶引发多种癌症的发生,目前已成为重要的药物研究靶点,作为癌症治疗手

学位

氧化镁真空碳热还原研究

还原熔炼对于冶金很重要,但目前极大多数还原过程均在常压下进行,仍只有少数金属生产涉及到真空还原过程,基于真空还原的优越性,认为有必要研究其普遍规律性,为获得一种不同

学位

氧化镁氧化锌真空碳热还原白云石热分解

盐霉素对人黑素瘤A375细胞增殖和迁移行为的影响

恶性肿瘤对人类健康的威胁十分巨大。肿瘤中有一类与皮肤紧密相关的肿瘤，即皮肤癌是人类常患的肿瘤之一，黑色素瘤又是皮肤癌中一种恶性程度极高的恶性肿瘤，其平均发病年龄在45岁

学位

黑色素瘤盐霉素细胞增殖迁移行为实验药理

统一网络安全管理平台中基Nikto的Web安全评估与研究

网络安全问题越来越引起人们的广泛关注，并成为当今网络技术研究的重点。一般情况下，预防网络攻击的方式就是采用漏洞扫描、入侵检测、防火墙等多种手段，但这些异构硬件的广泛使

学位

网络安全Web安全管理平台操作系统

聚焦“治理强行”?推动“五大发展”

期刊

结合异质扩散和小波包分解的医学图像分割算法

在医学图像中，对人体各种组织的正确分类不仅可以为临床组织病变提供计算机辅助诊断依据，而且也是图像三维重建和医学图像可视化的基础。医学图像分割算法的研究是当前医学图像

学位

小波包分解医学图像分割算法异质扩散

加压下底吹气泡特性的研究

气泡的行为是铁水预处理喷镁脱硫过程中最重要的现象之一。气泡熔池内液体的反应速率通常决定了脱硫率的高低。气泡越弥散,微细化程度越高越有利于脱硫的顺利进行。然而镁基

学位

喷镁脱硫气泡气泡频率局部气含率水模实验数值模拟

数据整合方法构建大鼠分子相互作用网络

与本文相关的学术论文