基于智能计算的蛋白质相互作用预测方法研究

来源 :安徽大学 | 被引量 : 8次 | 上传用户:ah12345679
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
随着人类基因组计划的顺利完成,科学家们获得了大量的序列信息,进而人类由以基因组研究为主的时代踏进了以研究功能基因组为标志的后基因组时代。在后基因组时代里,蛋白质组学研究是生物信息学的重要分支之一,这是因为生物体内的各种生理功能的执行都离不开蛋白质以及蛋白质与其它配体之间的协同合作。   蛋白质作为生命体的主要基本物质之一,其蛋白质间的相互作用不仅对细胞和生物通路的功能发挥着关键性的作用,而且理解这些相互作用对各种疾病的发病机理和治疗也具有极大的推进作用。因此蛋白质组学研究中一个最重要的挑战就是如何从物理和结构层次上大规模地了解蛋白质-蛋白质之间的相互作用和构建相应的蛋白质相互作用网络,一般常见的研究方法是根据其已知的蛋白质及其配体的一级结构序列,提取出序列中所包含的有用信息,利用实验和计算方法结合这些信息来预测蛋白质之间发生相互作用的可能性并建立蛋白质相互作用网络。随着X 晶体衍射和核磁共振(NMR)实验技术的进步,大量蛋白质结构数据被测定出来,这些数据信息进一步促进了开发基于数据驱动的方法(计算方法)来预测蛋白质相互作用。   本文采用智能计算中相关的算法围绕蛋白质相互作用里的一些基本问题进行着重研究。主要内容包括微观层次上的蛋白质相互作用位点的预测、宏观层次上的蛋白质相互作用预测以及蛋白质相互作用网络的构建。针对这三方面的问题,我们分别进行了深入的分析并提出相对应的预测方法,详细内容分别如下:   1.通过对蛋白质相互作用所形成的界面中表面残基和界面残基的分析,将覆盖算法引入到蛋白质相互作用位点预测中。该算法能够很好地结合蛋白质相互作用界面上界面残基在空间结构和一级序列结构中有聚类现象的特点,首先分别将界面残基样本和表面残基样本设想成在一个n 维空间的球面上(通过某种方式的转换),然后提取两种基本的蛋白质序列特征:序列谱和溶剂可及表面积。利用覆盖算法从初始界面残基样本开始计算以该样本为中心,以与异类样本最近距离和与同类样本最远距离的一半作为半径画圆,构造一个覆盖用以覆盖同类样本,然后再以异类样本为中心,以相同方式构造覆盖,如此这样交叉进行。我们根据数据特点,实验分别构造了两种数据集(完全集和平衡集),设计了该方法和传统的机器学习算法(SVM,ME)在两种数据集上的实验。实验结果显示该算法在两种数据集上的结果是有效的,可行的。最后给出几种算法在两个复合物上相互作用位点定位的实例,进一步说明该算法对未知蛋白质相互作用位点具有较强的适应性和预测能力。   2.可用于蛋白质相互作用位点预测的特征非常之多,不同的研究者使用不同的特征组合从而得到不同的结果。由于各种特征从不同角度对蛋白质相互作用位点预测提供的信息都不尽相同,其中一些特征对分类器的预测能力毫无作用,甚至可能会降低预测结果。因此,我们针对蛋白质相互作用位点预测的特征选择问题,提出了一种新的基于遗传算法(GA)和支持向量机(SVM)相组合的特征提取算法。该算法利用GA 从原始基本特征所组成的110维蛋白质序列向量中提取出相对重要的68种特征,同时对提取出的特征采用SVM 进行评估。我们将个体的适应度评价指标设置为算法分类能力的敏感度和特异度的均衡值F1-measure,这有利于寻找出对分类器各种性能指标相均衡的特征组合。实验分别设计了随机分类器、两阶段分类器、SVM和GA/SVM分类器。实验结果表明,这种基于GA/SVM 特征提取算法的蛋白质相互作用位点预测方法具有较好的鲁棒性,取得了比原始特征和其它方法更好的性能。   3.蛋白质相互作用预测的一个关键问题是如何有效地转换相互作用的蛋白质序列对信息,因为不同的蛋白质序列信息转换方法所表达的信息量会大不相同,由此产生不同的分类性能。为此,我们提出了一种称为氨基酸排序信息的蛋白质序列转换方法(伪氨基酸组成,PseAA),这种方法不仅考虑到蛋白质序列的基本氨基酸组成,同时也把氨基酸间的短程、中程和远程相互作用的影响放入蛋白质序列信息表达中。实验采用SVM对新的蛋白质序列编码方案进行学习和分类,同时为了与其它方法进行性能比较,实验也设计了另外三种转换方法,相关系数变换(CC)、自协方差表达变换(AC)和氨基酸组成(AAC)。实验结果表明,我们提出的序列编码方案的分类性能在四种方法中居于第二,四种方法中AC 方法变换所产生的维数最高,达到了840;CC 方法次之,为420;AAC 方法最低,仅为40;我们提出的方法维数也只有100。因此,综合其性能和所需的代价,我们提出的蛋白质相互作用序列转换方法是有效的,可行的。   4.蛋白质相互作用预测仅仅是从蛋白质层次进行研究,而生命体的各种功能都与其细胞内蛋白质形成的相互作用网络调控相关。为此,我们利用前面蛋白质相互作用预测方法所获得的分类器模型,从BioGrid 数据库中提取出两种类型的相互作用网络数据用于测试。我们分别对两种相互作用网络中所有的蛋白质序列利用伪氨基酸组成方法转换成相应的离散化向量,然后再利用分类器模型进行预测,最后对预测的结果绘制了蛋白质相互作用网络图谱。实验结果表明,该方法在蛋白质相互作用网络的构建上也同样是有效的。
其他文献
自上个世纪以来,随着计算机技术的飞速发展,人们可以更好的处理复杂数据,与此同时,高维数据分析技术也蓬勃发展。高维数据的本征维数估计问题研究,在高维数据处理领域中有着
在Web2.0时代,社会网络越来越流行,吸引了众多用户的关注,它允许用户发布并共享资源,建立基于社会关系的网络连接。社会网络的核心是维护虚拟社区内的用户连接,连接体现了一种社会
本文结合领域工程现有的研究理论、思想,进行面向领域的软件体系结构复用的实践。针对电子商务B2B贸易领域的商务平台,对其中涉及到的关键技术难点进行分析并给出解决方案,并
学位
智能变电站作为构建坚强智能电网的一个重要环节,承担着调整电压、分配电能、控制电流走向等功能,对智能电网的发展有非常重要的影响。目前智能变电站利用以太网作为通信网络,以太网延迟的不确定性对智能变电站通信网络报文传输的实时性有很大的影响。另一方面,当前智能变电站过程层单独组网的网络形式导致网络复杂性大,每增加一个新的应用、协议、设备,都会增加网络的复杂性,使得网络维护困难。针对这两方面的问题,论文提出
模式识别技术作为人工智能的一个重要研究领域,近年来得到了蓬勃的发展。OCR技术作为模式识别技术研究和应用的一个重要方面,也开始广泛应用于生产和生活的各个方面。目前,OC
学位
随着互联网和信息化进程的逐步发展,信息的数量和种类每天都在以惊人的速度增长。由于互联网信息的不断丰富,很多Web应用往往不能迅速跟进大量信息衍生及业务模式变革的脚步,
传统的网管接口一致性测试方法中所使用的测试系统,通常都是针对某个具体的网管接口规范或者网管接口实现技术设计和编码实现的,网管接口模型的改变或新网管接口实现技术的引
随着无线传感器网络(WSN,Wireless Sensor Network)技术的迅速发展,人们对无线传感器网络数据传输性能的要求越来越高。当前应用最为广泛的单信道无线传感器网络MAC协议由于
实时多处理器操作系统RTEMS(Real Time Executive for MultiprocessorSystems)作为一个快速、稳定的实时操作系统,已经在欧洲航天航空、机器人、军事、通信等对系统质量和可靠
学位
信息隐藏技术自20世纪90年代兴起以来就引起了专业人士的研究兴趣,它利用人类感觉器官的不敏感,以及多媒体数字信号本身的冗余来隐藏秘密信息。信息隐藏的特点在于它不仅隐藏