【摘 要】
:
高通量实验技术产生了大量的医学网络数据,多个维度的网络数据为从整体角度对细胞功能进行研究提供了平台。检测网络中的分子功能模块可以帮助我们发掘疾病致病机理以及细胞运行潜在机制,对医学研究有重要意义。然而大多数的医学网络存在边链接稀少以及噪声链接等普遍问题;通过利用多源数据融合的方法,最大化的获取网络中有价值的信息,从而为医学临床提供帮助。因此,本文结合模块检测相关算法,利用多视图聚类的方法对医学网络
论文部分内容阅读
高通量实验技术产生了大量的医学网络数据,多个维度的网络数据为从整体角度对细胞功能进行研究提供了平台。检测网络中的分子功能模块可以帮助我们发掘疾病致病机理以及细胞运行潜在机制,对医学研究有重要意义。然而大多数的医学网络存在边链接稀少以及噪声链接等普遍问题;通过利用多源数据融合的方法,最大化的获取网络中有价值的信息,从而为医学临床提供帮助。因此,本文结合模块检测相关算法,利用多视图聚类的方法对医学网络的不同视图进行选择从而识别出医学网络的功能模块,通过模块分析预测分子功能。本文主要研究内容如下:第一,由于蛋白质互作网络连边稀少而且存在很多噪声链接,网络中的内部连边紧密的拓扑模块表现不明显。本文利用子空间学习的方法,通过将蛋白质互作网络中的节点进行线性自表达的方式,深入挖掘网络中任意蛋白质节点之间的相似性;融合经由人工审核过的蛋白质复合体数据,采用半监督的方法指导蛋白质功能模块检测模型学习更加精准的蛋白质模块隶属度矩阵。本文提出了SNFM算法,通过与传统的无监督聚类算法(例如k-means、NMF等)进行比较,在DIP网络中,ACC和MMR值达到了0.56和0.42,F1值相对于NMF算法提高了12%。在案例分析部分,我们选择了典型的5个模块,其中包含具有二部图结构的蛋白质功能模块;通过通路和GO功能富集分析,验证了SNFM算法在蛋白质功能模块检测方面的可靠性。第二,针对融合多个视图数据帮助蛋白质互作网络进行蛋白质功能模块检测的问题,首先对收集到的视图进行选择,通过基因-疾病和基因本体视图关系数据与蛋白质复合体数据的匹配程度,考虑到蛋白质互作网络结构稀疏且低秩的特点,融合基因本体视图,利用MLRSSC算法得到两个视图融合后的特征矩阵。同时利用网络图中共有邻居关系对先验信息重新表示,再使用非负矩阵分解进行聚类。结果表明,本文提出的算法SLRSSC优于SNFM算法,并且在BIOGRID数据库上,算法的F1值比多视图聚类算法MVCC提高了18%;在基因本体涵盖的三个方面,本文提出的方法在不同临界值下蛋白质复合体富集的比例也较高。第三,由于现有的疾病分类体系存在缺乏敏感性、特异性且边界模糊等问题,使得很难在实际应用中辅助医生对特殊疾病进行早期治疗。考虑到多个视图的疾病属性数据包含有更多的信息,本文提出融合多个疾病属性视图数据的方法来挖掘更多的有效信息以期待解决上述问题。该方法是采用逐级、从少到多的视图组合策略对不同的视图进行融合,并采用MLRSSC和MVCC多视图聚类方法,基于贪心策略选择不同视图的最优组合。通过实验,本文通过对多个视图的组合方式进行测试后,发现通过融合症状、蛋白质模块和生物过程这三个视图后,其疾病分类结果是最好的。为了验证本文方法的有效性与优越性,在实验中,我们将本文的方法与现有的疾病分类体系从共享基因、蛋白质模块、表型、基因本体术语等方面的相似性进行比较研究,最终发现本文得到的新的疾病分类结果要明显优于ICD结果,并且在相似度为0.5时,基因本体术语模块度值比基准方法的NCD结果提高了0.2。
其他文献
21世纪以来,国际社会对海洋能开发的热情日益高涨,纷纷加快海洋能开发的步伐,我国在“十三五”期间投入了大量的人力与物力,建设实施了一系列的海洋能开发项目。目前“十三五”期间建设的海洋能项目多数已经完成,在此背景下“十三五”期间的海洋能项目建设效果如何,受到了社会的广泛关注,现阶段国内尚缺乏针对“十三五”期间海洋能项目的评价指标体系与评价模型,不利于我国海洋能项目建设与管理水平的提高。本文阐述了项目
近海地区建造施工时,需要使用大量的河砂及淡水,不仅耗费时间和成本,而且过度开采河砂给生态环境造成严重的破坏。海砂的颗粒级配与河砂相似,适合代替河砂作为混凝土的细集料。海砂因富含氯离子,极易导致混凝土结构中钢筋加速腐蚀,若拌合混凝土用水采用原生海水,对混凝土结构更为不利。纤维增强复合材料(FRP)具有耐酸碱腐蚀的突出优点,FRP筋代替钢筋用于海砂海水混凝土结构是解决钢筋锈蚀问题的有效方法。本文使用A
根据调查研究,发现许多中学生在化学学科学习过程中遇到很多困难和问题。由于学生自身的身心发展特点,学生对于直观的宏观现象比起微观和符号层面更容易接受;而抽象的微观世界,难于想象和理解;对于化学符号,大多数学生仅限于机械背诵,很难清楚明白化学符号所表达的含义。这造成了学生对于继续学习化学的兴趣和动力的锐减。出现这种情况的原因包括学生缺乏在宏观、微观、符号表征间的转换能力。要想使学生重拾对化学热情和信心
目的:(1)T2DM小鼠骨中LncRNA MEG3/p62/Runx2途径被抑制后对成骨细胞分化及骨形成代谢的影响。(2)探究不同运动方式对T2DM小鼠骨形成代谢的影响,以及LncRNA MEG3/p62/Runx2途径在此过程中有何变化。方法:将55只4周龄C57BL/6雄性小鼠(初始体重16.2±0.8g),适应性喂养一周后,随机分为正常对照组(NC,12只)和T2DM造模组43只。8周高脂膳
目的:通过分析朝医四象体质间的脑干听觉诱发电位(BAEP)差异,探讨朝医脏腑与器官间的内在关联,为朝医辨象诊断与临床治疗提供依据。方法:①以延边大学105名(男性31名,女性74名)在校大学生作为受试对象,学生年龄分布在18岁到27岁之间(平均年龄21.0±2.4岁),受试者自述无神经方面的疾病及相关病史并且无头部外伤。②实验前所有受试对象填写辨象调查表,并采集受试对象的全身图像,包括正面、背面、
目的:通过观察β片层阻断肽H102对PS1/APP双转基因AD模型小鼠学习记忆能力以及脑中脂蛋白脂酶(Lipoprotein Lipase,LPL)基因表达的影响,探究β片层阻断肽H102可能通过影响Aβ
党的十九大报告明确指出基层党组织建设要以提升组织力为重点,突出政治功能,这是在新的历史方位下针对基层党组织建设存在虚化、弱化、边缘化问题提出的新要求。分布在全国各行各业中的461万个基层党组织,是党的组织体系最坚实的基础,其中城市社区基层党组织是其重要的一部分,研究城市社区基层党组织组织力提升问题是新时代加强基层党组织建设理论与实践的新课题。本文以基层党组织组织力提升为研究对象,以洛阳市重庆路第二
随着欧Ⅴ、欧Ⅵ排放法规对氮氧化物(NOX)排放限值日趋严格,单纯依靠柴油机机内净化技术已无法达到减排标准,使用排放后处理技术来降低NOX排放已成为业界的共识。以尿素为还原剂
随着我国高速铁路的快速发展,路网规模不断扩大,运行图的调整频率也越来越高,“一日一图”已然成为现实。运行图的调整导致后续的乘务排班计划需要做出相应的调整。同时,市场需求的不断变化和运输组织中一些突发情况的影响也会导致排班计划的调整。排班计划编制及调整日益增长的工作量与目前的手工编制方式的低效形成了矛盾,因此有必要研究一套科学高效的乘务排班计划调整方法。本文结合乘务排班计划调整的实际特点并基于现有的
脑电信号(EEG)与情绪有很强的相关性,能够有效反映人类的心理活动和认知行为,为情绪分类研究提供了一种手段。情绪的产生是不同脑区和众多脑部结构共同参与和相互作用的结果,为了探究情绪的产生机理和反映一个脑区对另一脑区信息的相关程度和神经网络的信息关联性,本文从复杂脑网络角度出发,基于EEG导联间的数学统计关系构建情绪脑网络,并对情绪进行分类研究。节点重要性度量是研究复杂网络的重要手段,分析复杂网络的