基于监督学习与非监督学习的蛋白质复合物检测技术研究

来源 :桂林电子科技大学 | 被引量 : 0次 | 上传用户:karstlwq
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
蛋白质是生命活动的基础,通常蛋白质以复合物的形式来实现特定的生物功能。因此,对蛋白质复合物的检测对生物研究有着重要意义。通过传统生物实验进行蛋白质复合物检测存在着成本昂贵等诸多局限,给蛋白质复合物检测带来不便。近年来,随着蛋白质交互数据的不断增加及蛋白质相互作用网络(Protein-protein interaction,PPI)模型的提出,基于计算方法从PPI网络中检测蛋白质复合物成为当前研究热点之一。目前的计算算法可以分为非监督学习和监督学习两类。非监督学习利用图论的理论,分析蛋白质复合物的拓扑结构特征,从而实现复合物的检测。但由于真实的蛋白质交互网络中存在着大量的噪音,对复合物拓扑结构分析存在着影响,进而导致非监督学习算法在复合物检测过程中存在着误差。监督学习算法主要思想是利用已知蛋白质复合物的信息,通过监督学习算法学习出复合物的共性,用于蛋白质复合物的检测。但现有的蛋白质复合物数据集的不完备,以及数据集中的假阳性,仅仅依赖于已知复合物的数据存在着一定的不合理性,同时也给监督学习预测精度带来影响。本文针对非监督学习算法中存在的问题提出了基于非确定图移除关键节点的蛋白质复合物检测算法,缓解了噪音节点对检测过程的影响。针对监督学习算法中的问题,提出了基于XGboost与拓扑结构信息的蛋白质复合物检测算法。该算法将监督学习算法与蛋白质复合物的拓扑结构信息相结合,提高了复合物检测的精度。论文的主要工作包括:(1)针对蛋白质交互网络中存在的不确定性及噪音,提出了基于非确定图移除关键节点的蛋白质复合物检测方法(DCRA)。该算法为了解决蛋白质交互网络中存在的不确定性,将蛋白质交互网络构建成非确定性图模型。又通过对蛋白质交互网络中割点的移除,从而达到减少交互网络中的噪音节点。通过实验验证,较于其他非监督学习算法,在精度上有着提升。(2)在DCRA算法中提出了两个自适应参数。通过对两个参数的调节,可以有效的控制敏感度与准确度的关系。可以调整参数的大小,以满足不同的场景需求,具有较高的适应性与可用性。(3)针对目前监督学习算法的不足,提出了基于XGboost与拓扑结构信息的蛋白质复合物检测算法。该算法不仅仅依赖于现有的蛋白质复合物数据集作为复合物检测的依据,还结合了复合物的拓扑结构特征,有效的弥补了数据集的不完备性。在模型选择上,选择了目前流行的XGboost模型。实验效果良好。
其他文献
目的:通过观察加速康复外科对胃癌根治术手术患者围术期炎症指标及免疫指标影响情况,探讨加速康复外科对胃癌患者围手术期应激状态和免疫功能的影响方法:选取青海大学附属肿瘤医院胃肠外科2017年11月2018年11月期间住院行腹腔镜辅助胃癌根治术患者80例,将上述患者随机分为加速康复组(ERAS组)与常规组(NO-ERAS组)各40例,并纳入相关管理路径。记录入组病例:首次排气时间,住院时间及住院总费用。
本文主要探究超疏水路面水泥混凝土表面微观结构与表观润湿角之间的关系。首先,利用扫描电子显微镜(SEM)观测内掺法与外涂法的混凝土表面,分析纳米颗粒在水泥混凝土中的分布情况,定性描述水泥混凝土路面表面的微观结构。在此基础上,构建了疏水与超疏水水泥混凝土路面表面微观结构二维、三维模型,通过数学模型,分析超疏水路面水泥混凝土表面粗糙度对表观润湿角的影响。最后,通过二维、三维CFD数值模拟(Fluent计
数量丰富的蔡国有铭铜器,蕴含了大量的信息,对探究蔡国的考古、历史、地理等问题有十分重要的意义,也很好地反映出了蔡国青铜文化从西周到战国的发展变化情况。本文先对蔡国的有铭铜器进行全面地收集和整理,根据形制、纹饰以及铭文的因素进行分期断代,再结合传世文献和考古资料,探讨蔡国青铜文化的演变过程,以及铭文涉及到的史地问题,进而对蔡国的历史进行一个详细的分析。首先,笔者按发掘时间将蔡国有铭铜器的出土情况做一
在新课程不断的改革过程中,我国在基础教育方面积累了一些经验,取得了一定的成绩。但是,就课程改革的总体进展而言,考试作为主要评价制度的改革仍然显得滞后。当前,教育评价
本研究分析武汉市3个奶牛场在2014年至2018年、累计45108条荷斯坦奶牛DHI(奶牛群体遗传改良)检测记录,选取日产奶量、乳蛋白率、乳脂率、乳糖、体细胞评分、乳尿素氮、脂蛋比
在目前经济不断前进的中国,越来越多的私家车出现在城市的大街小巷,导致城市的交通不流畅,甚至堵塞,那么怎样很好的处理这一问题,让城市的道路不再拥堵,使广大的人民群众更加方便的通行,提高效率,成为政府和社会关注的焦点,急需解决的重点问题。在此背景下,城市轨道交通油然而生。在目前我国的各大中城市,轨道交通已发展成为缓解城市交通运营压力的主要工具和帮手,并且其作用显著,但是对于城市轨道交通的规划和建设需要
正渗透(FO)是一种自发的膜分离过程,与反渗透(RO)相比,具有能耗低,膜污染轻等优点,在海水淡化、工业废水、垃圾渗滤液和污泥浓缩脱水、农田灌溉、食品加工和发电等领域有着广
目的:了解原发性高血压患者对针刺降压的接受度和感受度,及影响其对针刺降压接受度和感受度的因素。方法:运用半结构化个体访谈法,围绕针刺前、针刺期间、针刺后三个环节中有可能会影响患者针刺降压接受度和感受度的因素设定访谈提纲。从前期“十二五”国家科技支撑计划项目子课题“石学敏针刺降压技术治疗高血压传承研究”以及天津市慢性疾病防治科技重大专项“针刺治疗频次影响原发性高血压临床疗效的研究”课题招募的对象中,
CAR-T(Chimeric Antigen Receptor T)细胞疗法自发展之初至今已有30多年的历史,该疗法在人类的抗癌史中具有里程碑式的意义。现今各种CAR-T细胞疗法及相关研究正在如火如荼地进行,研究者们正致力于解决CAR-T细胞治疗中遇到的各项挑战。众多研究中,ACAT1基因的相关功能引起了人们的关注。ACAT1参与编码胆固醇酯化酶,胆固醇酯化酶能够将胆固醇转化为胆固醇酯,调节细胞内
社交网站使用是初中生的一种普遍现象,鉴于社交网站使用强度所产生的影响具有两面性,本研究将社交焦虑这一变量引入到假想观众与社交网站使用强度的关系研究中,探讨假想观众