基于图子空间集成学习的生物实体交互推断研究

来源 :华中师范大学 | 被引量 : 0次 | 上传用户:queenie88
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
复杂生物系统由各种生物分子组成,任何一项生物功能都是有很多生物分子共同参与完成的,从复杂网络的角度研究生物分子的性质、功能是当前生物信息学的重要研究方向。随着新兴生物技术和数据库技术的迅速发展,产生了海量的组学数据,这为研究人员从分子水平上探索和揭示生命体的各项生命活动提供了丰富的数据来源,也使得构建不同生物分子(或实体)间的相互作用网络成为可能。整合多组学数据构建生物网络并推断不同生物实体的交互关系是网络生物学的重要研究课题,它可以揭示分子间的各种合作机制,帮助研究者了解生物分子功能,同时还能加深对各种复杂疾病的发生、发展和活动规律的理解。然而,面对海量的生物数据,仅依靠生物实验来探索交互关系,不仅要耗费大量的人力、物力,还要相当长的时间。机器学习作为人工智能的核心,在各行各业都发挥着重要的作用。随着计算机技术和统计学理论的发展,大量的机器学习模型被提出,以统计学理论为指导,利用机器学习模型和计算机技术来解决生物上的问题是当前生物信息的重要研究手段。利用数据挖掘、机器学习等计算手段作为生物实验的辅助和指导,可以快捷地从海量数据中进行初步筛选,大大的缩短了实验的时间成本和资源花费。针对当前生物实体交互推断算法中存在的问题,本文分别研究了基于多核邻域相似性的网络构建、基于多网络融合和邻域双向传播模型,以及基于图的异构网络稀疏子空间集成学习模型,并将它们应用到三类重要的生物实体交互推断问题中,具体工作如下:针对非邻域样本可能蕴含主要信息和样本间可能存在非线性结构关系的假设,建立了一种基于多核邻域相似性的网络构建模型(MKSNS)。通过对邻域样本和非邻域样本设置不同的正则化权重,避免了传统的线性邻域模型导致的重要非邻域信息完全遗失的问题;通过核方法的引入,使得模型可以灵活应对各种情形:多核模型的建立进一步拓宽了模型的适用范围,减少了模型在核函数选择时的复杂度。实验表明,在lncRNA-蛋白质交互推断问题的多个特征数据集上,相对于其他方法,MKSNS对于绝大多数的评估指标都取得更好的预测效果。针对当前大多数交互推断模型不能有效利用多源信息、过于依赖已知交互网络、参数鲁棒性较差和对没有交互信息的孤立样本的预测能力有限等现象,提出了一种基于多网络融合和邻域双向传播的交互预测模型(MNF-NBP)。大多数的生物实体交互推断问题具有交互样本比例少和没有确定的无交互样本的特点,并且由于技术条件的限制导致单一数据源往往不能包含完整的信息。为了能够获取更为准确生物网络结构,同时避免模型对已知交互的过于依赖,该模型通过整合多源信息来构建网络,并对异构网络数据进行融合,有效的消除由于单数据源的信息缺失而导致的网络偏差。此外,该模型利用网络补全策略来减轻稀疏的交互网络带来的误差,并提出了一种邻域双向传播模型来保证异构网络信息的交流。关于miRNA-疾病交互推断实验表明,MNF-NBP模型不仅可以有效的预测未知交互,还可以预测没有任何交互信息的孤立样本。针对大多数的子空间学习模型不能有效整合多源特征和网络结构,不能既体现标记样本的重要性又能挖掘未标记样本信息,不能有效整合异构数据源信息等问题,提出了一种基于图的异构网络稀疏子空间集成学习模型(GHNSSL)。该模型通过设置重要性水平来分层利用样本标签信息,利用邻域拉普拉斯正则化算子来保证子空间特征的光滑性,构建异构网络的稀疏子空间学习模型来整合样本的原始特征信息,并提出了一种加权的K邻域特征补全策略来拓展模型对于孤立样本的预测性能。关于两个交互推断问题(lncRNA-蛋白质交互推断和病毒人体蛋白质交互推断)的实验结果表明,该模型针对新的交互和孤立样本都有很好的预测性能,并且对于含噪声的交互网络有相当的鲁棒性。本文提出的模型以生物问题为主要研究对象,在生物实体交互关系推断问题上取得了较好的应用效果。除此之外,本文提出的多核邻域相似性的网络构建模型、多网络融合和邻域双向传播模型和基于图的异构网络稀疏子空间集成学习模型具有一定的理论价值,这些方法也适用于其他领域的相关研究。
其他文献
分布反馈式量子级联激光器(DFB-QCLs)具有工作温度高和功率高等众多优点,是非常理想的中红外激光光源。DFB-QCLs结合脉冲超声分子束技术非常适合于分子、离子和自由基等分子体系的高分辨率激光光谱研究。本文针对DFB-QCLs的波长调制特点,搭建了两套高分辨激光光谱实验系统:DFB-QCLs分段快速扫描实验系统和DFB-QCLs脉冲放电超声分子束实验系统。其中,DFB-QCLs分段快速扫描实验
在我国中央政府的政策是由地方政府落实,地方政府是政策落实的“最后一公里”,民众对地方政府政策的服从极为重要,但民众不服从地方政府的现象时有发生。如何控制这种低权威服从的发生?权威服从是指个体对权威及其决策的自愿服从,此处权威不仅指权威个人,更指权威机构。为丰富与深化对权威服从过程机制的探讨,心理学研究者认为,在已有研究基础上,同时也可运用心理学视角与方法,从微观上分析权威服从内在的一般的心理规律,
学位
相对论重离子碰撞实验的主要目标是研究强相互作用夸克胶子等离子体(Quark-Gluon Plasma,简称QGP)的性质。“大爆炸”理论认为这种新物质形态存在于宇宙形成的早期。因此,对QGP的研究对我们理解宇宙的演化,星体的形成,物质的基本结构和相互作用等有深远的影响。相对论重离子碰撞中形成的QGP存活时间极短,所处环境温度极高,以至于我们无法对其进行直接观测。幸运的是,碰撞后产生的大量末态粒子可
在知识经济时代,随着信息技术的日新月异,企业管理人员越来越意识利用高新技术获取更多知识来做科学决策的方式逐渐成为推动现代企业的管理创新之重要力量,但企业管理人员需要与时俱进地学会在合适时机选择合适的知识或信息来做决策,利用信息技术的手段交易或交换到信息,企业再将其转换成为组织生产力变革的力量和具有经济效益的重要信息资源。随着数据规模越来越庞大,人类步入了大数据时代,这是一个以数据和知识作为核心资源
电磁波和声波的散射问题是数学领域的研究热点之一,本文中我们主要考虑时谐声波散射问题.时谐声波e-iwtu(x)去掉时间变量部分e-iwtu,空间变量u(x)满足Hclmholtz方程.散射问题的研究可以分为正逆散射两个方面,所谓正散射问题是满足一定的边界条件的Hclmholtz方程的边值问题.逆散射问题则是根据测量数据(散射场或其远场模式)来反演障碍物的位置、形状以及相关参数等.由于实际应用中散射
这项研究不仅旨在开发一种新的基于任务的学习模型,而且还旨在测试其适用性。在面向高中生的数学中,开发了一种基于认知主义和建构主义的新方法。该模型的适用性在缅甸实皆省吉灵庙镇(Kalaymyo)的三所高中学进行了测试。从这个角度出发,本研究旨在研究以任务为导向的学习范式作为基于建构主义理论的以学生为中心的教学方法来解决学生技能的可行性。通过这种方法,学生需要一些时间来处理他们头脑中的信息,而不会被同学
知识与发展的关系问题是教育学中的经典性、基础性、永恒性的问题,是教育研究者必须要回答的基本问题。在西方,从苏格拉底“知识即美德”的命题,到培根“知识就是力量”的论断,都展现了人们对于知识发展功能的关切。在国内,主流的教学本质观认为,知识学习是学生发展的“基础”“中心”和“起点”。从国内外关于知识学习与人的发展关系的文献来看,人们总是从知识学习出发,或者仅仅在知识学习的范围内,理解和落实学生的发展问
马拉维大多数人对法律体系越来越不满。很多非专业法律评论员提出,法律制度是一场闹剧,一个卡特尔集团,是一系列使国家屈服的、无用的威胁。这是一个殖民化的、具有欺诈性和偏见性的制度,由于其中于国家没有帮助的人而完全与实际脱离。所有这些评论其实都是对司法系统诚意的质疑,在司法系统中,每个人都是脆弱和易受伤害的。因此,本研究将聚焦(无)诚意这个话题,通过对采集于马拉维下级和高级法院的22个刑事审判数据的分析
神经元是大脑神经系统的基本单位,它具有复杂的非线性特性,而且其放电模式呈现出丰富多彩的动力学行为。本文立足于神经元,构建以关键神经环路和微神经网络为基础的神经元及其网络系统,通过随机模拟和非线性动力学分析,研究内外界因素(如噪声、耦合方式、时间延迟、网络拓扑结构等)对复杂神经系统的非线性动力学特性(放电模式、信息编码、能量效率等)的影响,并通过相分析等方法探究其内在动力学原因,从而解释与大脑相关的