论文部分内容阅读
随着人类基因组计划的完成和高通量技术的不断进步,系统生物学得到了长足的发展。以往那种局限于少数基因或蛋白质的研究已经远远无法满足人类探索生命这个复杂系统的需求,而系统生物学的出现使人类得以从整个基因组、蛋白质组、相互作用组的水平上对生物的微观特性进行建模和分析。本文遵循系统生物学的研究理念,采用数据整合方法来构建大鼠的分子相互作用网络。大鼠与人类具有紧密的同源关系,关于大鼠的研究结论将对人类的病理探究和治疗方案制定产生重要的借鉴意义。
本文选用与大鼠心室肥大相关的基因芯片,选取其中的730个差异表达基因作为目标分子。为使数据整合模型能够从全面的角度对分子相互作用网络进行预测,本文挑选了4种异质的数据类型:基因表达谱、基因表达序列、蛋白质亚细胞定位和直系同源数据。不同的数据类型经过相应的算法处理生成5种证据:Pearson相关系数、SVM模式识别、基因编码序列相似性、蛋白质亚细胞定位的距离以及直系同源比对,每一种单项证据都从特定的角度对目标分子间是否存在相互作用进行概率估计。由于生命是一个非线性的复杂系统,线性算法往往无法取得最佳的模拟效果,因此本文除采用Pearson相关系数等常用线性算法外还特别引入支持向量机——用于模式识别和概率密度估计的机器学习算法。结果表明,无论是在单项证据的处理中,还是多种证据的整合过程中,支持向量机均凭借其强大的非线性处理能力取得了优于其他算法的判别效果。仅仅对不同证据进行单独处理是不够的,更重要的是如何加以整合。这也是系统生物学者们长期困惑的问题。为了解决这一难题,本文首先将5种证据的计算结果通过高斯核密度变换转化为P值,然后在此基础上设计了两种新型整合方法:基于灵敏度的加权整合法以及SVM整合法。该两种方法在度量不同证据对最终判别结果的贡献度的基础上,为各种证据分配不同的权重,与简单的平均权整合法相比,新方法更具合理性和可解释性。
通过ROC曲线的对比,本文发现数据整合模型的预测效果要明显优于单项证据。部分单项证据例如SVM模式识别虽然本身也具有较高的灵敏度和特异度,但毕竟受到基因芯片数据高噪声的影响,使判别精度受损。多证据整合保证了异质的数据之间能够取长补短、从而获得对研究对象更加全面、客观的认识,也就是说即使一对分子相互作用在某种证据下不被识别,数据整合模型也可以依据在其它证据下的综合表现将该相互作用挖掘出来。在本文采用的三种整合方案中,SVM整合法的效果最佳。在P值小于0.01的显著性水平下,SVM整合法共预测出2659个分子相互作用,灵敏度和特异度分别达到0.0738和0.9904。该分子相互作用网络明显具备无尺度网络的三大特征:可扩展性、偏好连接性和鲁棒性。由于受到实验条件的限制,本文无法进行微扰实验,只能在已知相互作用的基础上进行子网络的提取。通过与KEGG等数据库的比对发现,本文提取的子网络中确实包含着与大鼠心室肥大相关的重要信号转导通路。然而由于数据可获得性和数据质量等方面的因素,本文数据整合模型的判别效率与目前系统生物学的先进水平相比,还存在一定差距。
本文仅仅是对大鼠细胞内分子相互作用网络研究的一次尝试和探索,旨在为未来的实验验证或是其他研究者提供一些借鉴。随着高通量技术的不断进步,基因组学、蛋白质组学以及其它组学的飞速发展,将不断有新的数据类型诞生,数据质量也会不断提高,数据整合模型将不断得到完善,人类对于大鼠等模式生物乃至人本身的了解将会愈加深入、精确。