【摘 要】
:
近年来,多组学数据和机器学习技术的结合是癌症研究的热点,该技术成为了癌症预测的一种新的可操作方式。肾透明细胞癌(ccRCC)作为肾癌(RCC)中最常见的亚型,因为致死率的不断上升成为研究的难点,目前有效的治疗研究非常有限。本文将机器学习方法应用于ccRCC患者的多组学数据中,建立相关模型,从分子水平确定与癌症分型或者癌症进展相关的关键基因,进而为提高患者个性化治疗效果提供理论基础。本文的主要研究内
论文部分内容阅读
近年来,多组学数据和机器学习技术的结合是癌症研究的热点,该技术成为了癌症预测的一种新的可操作方式。肾透明细胞癌(ccRCC)作为肾癌(RCC)中最常见的亚型,因为致死率的不断上升成为研究的难点,目前有效的治疗研究非常有限。本文将机器学习方法应用于ccRCC患者的多组学数据中,建立相关模型,从分子水平确定与癌症分型或者癌症进展相关的关键基因,进而为提高患者个性化治疗效果提供理论基础。本文的主要研究内容和主要贡献如下:1.基于复杂网络鉴定关键的ccRCC相关分子。通过相关数据库和WGCNA算法对差异表达的mRNAs(DEmRNAs)、miRNAs(DEmiRNAs)和lncRNAs(DElncRNAs)构建3个单层网络:miRNA-mRNA网络,lncRNA-miRNA网络和lncRNA-mRNA网络。通过度、接近中心性和介数中心性的比较分析,发现hsa-mir-155,hsa-mir-200c,hsa-mir-122,hsa-mir-506,hsa-mir-216b,hsa-mir-141,lncRNA AC137723.1和AC021074.3是与调控ccRCC细胞增殖、转移和侵袭有关的关键基因。将单层网络融合为lncRNA-miRNAmRNA多层网络,网络拓扑表明hsa-mir-122是三层网络中唯一的关键基因。以hsa-mir-122为中心构建lncRNA-hsa-mir-122-mRNA网络,发现hsa-mir-122所连接的靶基因只有GALNT3,通路分析表明GALNT3的缺失影响粘蛋白型O-聚糖生物合成的代谢过程。与hsa-mir-122所连接的有临床曲线意义的lncRNA中只有lncRNA AC090377.1具有靶基因,其通路分析表明GUCY2F富集于视网膜相关的光转导通路中。从单层网络到三层网络的分析表明,hsa-mir-122是ccRCC发生和发展的重要分子,这为进一步研究ccRCC的致癌机理提供了理论基础。2.ccRCC亚型的关键特征的识别。首先,基于共识聚类、K-Means和EM算法,使用mRNA,miRNA和lncRNA的表达数据确定了ccRCC亚型,分别称为透明细胞亚型1(ccluster1)和透明细胞亚型2(ccluster2)。然后,根据ceRNA网络,结合随机森林和贪心算法挑选出最佳组合特征来区分ccRCC亚型。此外,通过单变量Cox回归分析鉴定的具有生存意义的竞争基因对也能较好的识别两大亚型。这些分类特征分别是以mi R-106a,mi R-192,mi R-193b,mi R-454,mi R-32,mi R-98,mi R-143,mi R-145,mi R-204,mi R-424和mi R-1271为相互作用中心的竞争基因对,此时的预测精度超过92%。对这些竞争基因对进行分析发现:mi R-106和OIP5-AS1的变化对ccluster1中的细胞增殖和预后有影响。mi R-145和FAM13A-AS1的变化对ccluster2的细胞侵袭,凋亡,迁移和代谢功能产生影响。同时,发现mi R-192在ccRCC两大亚型中均显示出独特的特征。另外,基因在不同通路中也存在显著差异。ccluster1类的肿瘤基因富集在FcγR介导的吞噬通路,并影响组织的重塑和修复,而ccluster2类的肿瘤基因富集在EGFR酪氨酸激酶抑制剂抵抗通路,并参与细胞稳态调节。这些基因对的鉴定可以为不同ccRCC亚型的治疗提供参考。3.基于复杂网络和机器学习鉴定关键基因。首先通过鲁棒和稀疏相关矩阵估计器构建相关性系数大于0.6的基因-基因相互作用网络,然后结合Page Rank算法和共识聚类挑选出重要基因,发现PR值排名前31的基因识别亚型的效果最好,轮廓系数为0.913。对靶基因进行GO分析,发现ATXN1L、STAT5B、KMT2A、KAT7和ASH1L富集的GO个数最多,这些基因对细胞增殖具有一定的影响。同时,两大亚型的分期和分级的生存分析也很显著,对预后的研究提供了一些理论基础。本文致力于使用机器学习方法对肾癌的多组学数据进行挖掘并构建一系列的预测模型,所发现的关键分子为肾癌的个性化治疗提供了参考,为大数据时代精准医学的发展提供了思路。
其他文献
近年来,随着各种功能性材料的开发利用,微纳制造在诸如柔性电子、光学器件、微流控器件等众多领域显得尤为重要。目前几种主流的微纳制造手段中,还存在设备昂贵、加工效率低、成型范围有限以及制造精度低等问题,难以满足现有的应用需求。电流体动力学(Electrohydrodynamics,EHD)直写打印技术是一种新型的微纳尺度打印方法,作为一种无掩模、非接触、直写增材制造工艺,具有成型速度快、材料兼容性好以
三维(3D)成像广泛应用于生物医学、材料科学、人机交互等领域,相较于传统的二维成像与显示技术,基于微透镜阵列的光场成像可将光线的位置与角度信息以四维双平面形式进行编码,较传统方式增加了两个自由度,克服了传统成像无法采集光线方向的固有局限。光场图像由子图像阵列组成,其中包含了丰富的物体信息,这些信息中可在重构阶段恢复物体深度,在虚拟现实、三维重建、目标检测等机器视觉领域具有重要作用。然而,目前基于光
在现如今海量的数据环境和高效的性能要求下,深度学习算法因其具有的多层非线性结构而具有非常强大的特征表达能力和建模能力,已经在许多任务中逐渐取代了传统算法。现代医学中,医生主要依靠各种模态的医学影像图像做出诊断及治疗计划。医学影像图像的种类很多,如计算机断层扫描成像(CT)、核磁共振成像(MR)、正电子发射计算机断层显像(PET)等。不同模态的医学图像能够提供不同的信息,借助深度学习算法分析和处理医
随着芯片朝微型化以及高度集成化的趋势发展,芯片的封装速度以及容量都得到了极大地提高。芯片封装的高度集成化需求推动了封装技术快速发展,但随着芯片尺寸变小,芯片封装的制造工艺越来越具挑战性,封装过程中缺陷也越容易产生且难以检测,因此对芯片中的微缺陷进行可靠且稳定的检测显得十分重要。基于高频超声的声显微成像技术已经被广泛且有效地应用于微电子封装的微缺陷检测中,但是在高频超声检测过程超声会出现噪声和边缘衍
随着社会视频监控系统的不断完善,行人重识别作为一个重要的视频监控应用受到了广大研究者的重视。行人重识别旨在完成跨摄像头场景下对相同身份行人的识别任务,在跨摄像头寻人、嫌疑人识别以及目标行人轨迹追踪等视频监控任务中有着较为重要的应用。随着深度学习的发展,构建深度网络的方法逐渐成为了行人重识别的研究热点之一。对于单模态行人重识别,由于存在拍摄角度不同、光照强度不同及人物遮挡等问题带来的挑战,所以如何设
组织工程学是指通过将生命科学与工程学原理进行结合,研究和开发某种生物替代物并将其运用于器官和组织修复。其中,构建三维组织支架是必不可少的一个环节,该种组织工程支架必须要满足一定的机械力学性能要求,并且支架的结构形态需要设计精准的匹配值,否则支架结构所具有的生物机械性能、几何以及液体传输等特性会因其局部或整体结构的变化产生不可逆的影响,进而影响种植在支架中的细胞活性。因此,设计具有良好结构形态及优秀
溺水是全球主要的公共卫生问题,是世界上意外死亡的主要原因之一。在溺水之后,最常见的并发症是急性肺损伤(Acute lung injury,ALI)或者急性呼吸窘迫综合征(Acute respiratory distress syndrome,ARDS)。海水淹溺导致的ALI/ARDS是一个复杂的病理过程,氧化应激和炎症共同参与溺水性肺损伤的发病机制,但是其具体的分子机制尚未完全阐明。血红素加氧酶-
近年来,随着传感技术及通信技术的迅速发展,无线传感器网络在工业、军事等领域广泛应用。许多实际工程问题都可以建模成一个动态系统的状态估计问题,设计一个有效的、可靠性高的分布式滤波算法是传感器网络研究中的一个重要方向。在分布式滤波的研究中如何融合网络中多个设备的信息实现高可用性和高鲁棒性,如何解决复杂网络环境中存在的网络攻击、数据量化、切换拓扑等问题是研究重点。无线传感器网络中设备通常由锂电池供电,设
海参是一种富含蛋白质的优质海产品,具有极高的营养和药用价值,已证实其在抗氧化、抗疲劳、抗凝血等方面起有效调节作用。但是针对海参富含营养且胶原含量高的这个特性,相关的应用于医疗、保健或功能食品中的功效研究较少。皮肤创伤是最常见的机体损伤之一,愈合过程中需要营养补给供能,同时胶原也是皮肤组成中必不可少的。因此,本课题在海参富含营养和胶原的基础上,验证海参酶解物(Sea cucumber hydroly
随着互联网技术的不断发展与大众精神文化需求的日益增长,网络漫画逐渐成为了人们日常生活中常见的娱乐方式之一。精美细腻的绘画技法、新颖有趣的剧情故事,不仅能够激发读者的阅读热情,还具有提高审美能力、传播文化思想的作用。作为近年来开始广泛流行的网络漫画种类,奇幻类网络漫画将传统元素与奇幻元素相融合,在内容与形式上不断创新,受到读者的好评与追捧。当下,奇幻类网络漫画顺应发展潮流在中国兴起,吸引读者注意的同