基于核学习的癌症亚型聚类研究

来源 :天津大学 | 被引量 : 0次 | 上传用户:wxxflystar
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
癌症已被定性为一种异源性疾病。当某些调控细胞生长的基因发生突变时,这种突变会造成细胞生长速度失控,从而导致细胞疯狂的生长和分裂进而导致癌变。癌症可以产生在人身体的任何一个部位。通常,人体中的细胞会根据身体的需要分裂出新的细胞。当原本的细胞受到伤害甚至是死亡时,这些分裂产生的新的细胞将会替代这些受损的细胞。但是,当身体发生癌变时,整个过程会受到巨大影响。癌症所导致的异常的细胞分裂速度会导致当某些细胞应该死亡时依然存活,这会使得新的细胞生成受到阻碍。而同时这些应该死亡的细胞则继续分裂,这可能会导致肿瘤的形成。当肿瘤被诊断为恶性时将会严重危害人类健康,但即使在同一肿瘤内,不同的细胞也可能具有不同的遗传变化。通常,癌细胞比正常细胞具有更多的遗传变化,这也意味着癌症是一种十分复杂的疾病。因此尽早发现癌症亚型是十分具有临床意义的,并且会大大提升患者的生存概率。本文主要提出了一种全新的解决癌症亚型聚类的算法。。我们的算法将患者的基因特征,mi RNA特征,Iso特征通过切比雪夫距离构建了三个患者间的相似度核。而在使用基因特征构造相似度核前,我们使用了LASSO算法将患者的基因特征和患者的生存时间进行拟合,在实现特征选择的同时也选择出了我们认为的致病基因。我们为了能够充分利用患者的信息也就是充分利用我们构造的相似度核,我们使用了SKF相似度核融合算法将我们构造的三个相似度核进行融合,得到一个包含潜在信息的患者间的相似度核。而这个相似度核可以看作患者间的一个带权图,我们在这个图上进行谱聚类算法得到每个患者对应的类别。我们的方法得出的结果不仅在已有的五个数据集上有着出色的表现,同时在我们首次提取的数据集上同样有着出色的表现。我们还通过生存曲线和热图直观展示了我们的结果,从对应的生存曲线中可以看出我们找出的癌症亚型是有着十分大的差异的,从热图中可以看出我们找出的致病基因确实起了关键的作用。我们提出的方法在提高了已有的癌症亚型聚类算法的基础上,还找出了部分癌症亚型的致病基因。并且这些基因中的大部分都可以在GEO数据库中得到确认,这些致病基因也许会在后续的科学研究和临床治疗上发挥重要的作用。
其他文献
计算机视觉和自然语言处理是两个非常热门的研究方向,其中包括图像或视频的分类、检测、分割等视觉任务或是机器翻译、文本摘要、问答系统等自然语言任务,这些任务目前已有很多基于深度神经网络的模型。现实生活中,大部分时刻需要同时理解视觉和自然语言信息,因此,目前在两个领域结合的方向,涌现了很多新的任务:如视觉描述生成、文本图像生成等内容。这其中,视频问答任务近几年取得了飞速的发展,它要求模型输入视觉信息和问
学位
由于RDF图数据的急剧增长,传统的集中式数据处理已经不能满足当前需求,必须通过分布式集群来存储和处理大规模RDF图数据。RDF图数据的分布式存储面临的第一个问题即是RDF图划分。这就使得如何有效地划分大规模RDF图变得尤为重要。本文对现有的RDF图划分算法进行整理,将图划分算法分为3种类型,分别是多级图划分算法、流式图划分算法和分布式图划分算法,详细描述了其中的代表性算法。通过在合成数据集与真实数
学位
目前深度学习已经在多个领域中获得了令人瞩目的成就,但深度学习的成功往往依赖于大规模有标注的数据集,这不仅限制了其在特定领域的应用,也与人类能够从少量样本中快速建立概念有较大差距。小样本分类旨在通过少量有标注样本学习出有效的模型,能够对新类进行识别。而半监督条件下的小样本分类则是对当前小样本研究的进一步拓展,半监督条件一方面更加贴近人类对于事物类别的认知方式,另一方面在实际应用中无标记的数据的收集往
学位
随着天文观测数据的日益丰富,天文学研究已经进入大数据时代。随着光学望远镜制造技术不断发展,高分辨率和宽视场的天文光学观测图像数据持续增速积累。对于时域天文学研究,天文学家通常关注于某一片天空区域内发生的变化或者某一个星体自身发生的变化,并不需要处理所有的归档图像数据,因此如何保证能够快速从海量的归档数据中检索出天文学家所需要的图像序列是一个亟待解决的挑战。本文面向基于光学图像数据的时域天文学研究,
学位
天文观测对大气环境质量、防信号干扰能力等方面的要求非常高,因此,观测条件越好的地点越是人迹罕至。由于观测地点长期无人值守,在观测站点部署高可靠、低成本的远程数据传输系统非常有必要。例如,南极昆仑站天文观测现场与国内数据中心之间只能依靠铱星通信系统进行数据传输。然而,铱星通信网络的带宽极为有限,并且相当不稳定,流量成本也非常昂贵。因此,常规的数据传输工具,例如rsync和scp,并不适用于这种传输场
学位
语音合成(Text-to-Speech,TTS)是一种将输入文本转换为合成语音的技术。在人机交互场景中,语音合成作为交互链条中最后一步,具有举足轻重的地位。目前随着端到端技术的提出和日趋成熟,单语种单说话人语音合成系统,已经能够合成与人类发音具有相似自然度的语音,但是在实际应用场景中,单语单说话人语音合成系统已经无法满足人们的日常需求。比如在导航系统中出现的含有英文单词的地址,日常交流中出现的英文
学位
随着数字化时代的到来,数据的形态非常丰富,描述同一实例的不同类型数据被称为多视角数据。基于多视角数据,多视角学习旨在通过融合来自多个视角的补充信息来发现潜在的表征。可以根据数据的完整性将多视角学习分为完整视角表征和缺失视角表征,本文围绕完整视角和缺失视角的表征学习展开研究。对于完整视角的表征学习,基于子空间学习的方法是目前较为主流的方法,但是当前基于子空间学习的方法存在两个缺点:(1)多视图关系未
学位
视频作为一种重要的信息载体,随着计算机技术和智能设备的快速发展,在人类生产生活中扮演了日益重要的角色。在人工智能领域,基于深度学习的视频分析技术也受益于多种基础任务的发展,在各种细分领域有着广泛的应用。视频问答任务结合了视频的视觉信息和文本的自然语言信息,能够让智能机器跨越模态的鸿沟,提升跨模态语义理解能力。近年来受到了大量关注。基于视觉和语言的视频问答作为一个极具挑战性的研究方向,涉及计算机视觉
学位
在现实世界中,绝大多数图数据都在随时间发生动态演化。近年来,随着大规模“动态图”数据的不断涌现,面向大规模动态图数据的查询处理逐渐成为图数据管理中非常重要的一类任务。其中,面向大规模图上的位置查询处理是一个十分重要的研究方向,该方向主要包括两类图数据上基础的查询问题:顶点可达性查询与k-近邻查询。对于动态图上的可达性查询问题,我们重点关注结构变化动态图上基于历史区间的可达性查询,即:给定动态图的拓
学位
<正>为贯彻落实少捕慎诉慎押刑事司法政策,降低诉前羁押率,检察机关对确无逮捕必要的犯罪嫌疑人,依法作出不批准逮捕决定。在羁押率逐年下降,非羁押强制措施适用率不断上升的背景下,传统监管手段已无法满足实践需求,非羁押数字监管为破解非羁押强制措施监管难题,保障刑事诉讼的顺利进行提供了良方。但非羁押数字监管尚处于探索阶段,关于其功能定位、合法性、适用主体权责划分等问题,理论界与实务界仍存在争议,亟待研究解
期刊