基于数据集成和监督学习的络合物发现研究

来源 :大连理工大学 | 被引量 : 0次 | 上传用户:zgl_0251
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
随着基因组计划的完成,人类步入后基因组时代,逐渐认识到蛋白质分子在生命过程中的重要性。研究表明,蛋白质分子并不单独发挥作用,它通常与其功能相似的蛋白质分子聚集形成大分子结构,以蛋白质络合物的形式参与生物进程、细胞组成、分子功能等生命过程。目前,生物高通量实验产生了大量的蛋白质关系,随之形成了多种蛋白质关系数据集,为蛋白质络合物的预测提供了可能。蛋白质络合物以其对生命的重要意义,成为系统生物学的热点研究对象。首先,本文介绍了蛋白质络合物发现算法的研究背景、研究现状、相关知识和评价指标。并且指出目前影响蛋白质络合物发现算法性能提升的主要问题:蛋白质关系数据集中假阳性、伪阴性问题;流行蛋白质络合物发现算法单纯基于规则寻找关系网络中密集子图导致的局限性问题。这些问题限制了蛋白质络合物发现算法性能的提升。随后,本文针对蛋白质关系数据集中伪阴性问题,提出集成生物文献中蛋白质关系策略。该策略充分利用生物文献中隐含的大量高准确性蛋白质关系信息资源,利用PPIExtractor系统从文献中抽取蛋白质关系,经过筛选过滤后集成到蛋白质关系数据集中,弥补蛋白质关系数据集中关系缺失现象,从而提升蛋白质络合物发现算法的性能。最后,本文针对蛋白质关系网络假阳性、伪阴性问题及蛋白质络合物算法局限性问题,提出一种基于监督学习和集成生物文献中蛋白质关系的络合物发现算法。该算法第一步通过集成生物文献中蛋白质关系解决蛋白质关系数据集伪阴性问题和稀疏性问题;第二步通过采用集成蛋白质基因标注信息特征和蛋白质关系拓扑结构特征的蛋白质关系可信度度量策略,过滤蛋白质关系网络中低可信度关系,解决蛋白质关系数据集假阳性问题;第三步通过采用监督学习SLPC算法在修正后高质量蛋白质关系数据集中进行蛋白质络合物预测,经过Cliques算法抽取完全子图,邻接蛋白质扩充完全子图,高重叠子图过滤等操作,最终得到预测蛋白质络合物,解决蛋白质络合物算法局限性问题。本文提出的集成生物文献中蛋白质关系策略,使得多种蛋白质络合物发现算法在多种蛋白质关系数据集上得到显著的性能提升。本文提出的基于监督学习和集成生物文献中蛋白质关系的络合物发现算法,在多种蛋白质关系数据集上取得不错的性能,较目前较新较好的络合物发现算法ClusterONE,有着明显的性能提升。
其他文献
随着多媒体信息技术的飞速发展,图像资源越来越多地出现在人们的工作和生活当中,如何能够快速确地在庞大的图像资源库中查询到所需信息已经成为计算机视觉领域的一个重大挑战
聚类分析作为数据挖掘的十大难题之一,是数据挖掘范畴的重点研究内容。其中,对高维数据的聚类更是研究者们探索的热点问题。最近的研究显示出传统的聚类算法可能因为高维数据
随着后基因组时代的到来,生命科学的研究内容呈高速发展态势,生物信息数据迅速增长。由于生物数据具有大规模性和复杂性的特征,因此,探索如何高效处理海量生物数据的生物信息学学
怎样从单幅运动模糊图像复原出清晰的图像,一直是数字图像处理领域中富有挑战的问题。图像复原的目的是尽可能的恢复出原始清晰图像,因此对图像质量进行评价是必要的。若图像中
云计算(Cloud Computing)是一种新型的分布式计算范式。它将计算任务分布在大量计算机构成的资源池上,使各种应用能够根据需求获取计算力、存储空间和各种软件服务。云计算用
随着多核处理器的广泛应用,并发编程成为软件开发的主流方式,但是并发编程给程序员带来了很大的挑战。传统的并发编程主要是用锁机制来保证共享资源的互斥访问,锁机制是一种
随着移动互联网的飞速发展,智能手机也风靡全球。苹果、安卓、Windows Phone等智能手机不断吸引着用户的眼球,越来越成为人们生活中不可缺少的通讯工具和计算平台。与此同时,无
伴随着计算机体系结构的快速发展,代码迁移这一课题显得越发重要。新的体系结构如果不能广泛的被应用软件支持,将很难生存下去。龙芯是我国自主研发的通用CPU,采用MIPS架构,
目前,不同汽车厂商、产品类型和总线类型提取车辆信息的方式各不相同。每个汽车制造商对CAN总线信息的编码也大不相同。大多数汽车制造商都采用了CAN标准,所以车辆之间的应用层
根据Gross情感调节过程理论,情感调节主要是调节者通过情境选择、情境修正、注意分配、认知重评、表达抑制五个阶段对自己的不良情感进行自我调节,自我消化的过程。主要的调