一种用于癌症子分类的多核学习集成方法

来源 :西安电子科技大学 | 被引量 : 0次 | 上传用户:stefanie888
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
癌症是由于细胞丧失正常调控并发生异常生长而产生的一种疾病,癌症的产生、发展、转移和恶化都具有复杂的生物过程。根据癌细胞在生物体内的作用位置可以将癌症分为很多种类,根据分子标志物以及病人临床表现又可以将同一癌症分为不同子类型。癌症子类型的研究不仅可以全面的了解癌症,也可以为患者提供更精准的治疗方案。通过基因表达等单一数据类型来研究癌症子类型通常无法捕获癌症分子表型的全部复杂性。随着高通量测序技术的发展,目前已经产生了大量的基因组、转录组、表观基因组和蛋白质组等多组学数据。通过多组学集成分析来进行癌症子分类能够综合多个层面的分子特征,显著提高癌症子分类效果。但是,由于生物系统的复杂性以及不同组学数据之间的异质性,多组学集成分析仍然是一项艰巨的任务。目前已有大量的多组学数据集成方法用于癌症子分类。有一部分方法对数据的分布具有很强的假设,例如,i Cluster方法假设连续型数据服从高斯分布,但由于数据自身的特性以及测量误差使得实际得到的数据可能不满足这种假设,从而影响结果的正确性;此外,另一部分方法忽略了单一组学数据内部特征的差异性,例如CIMLR方法将单个数据类型作为整体计算核矩阵并确定权重系数,忽略了单一组学数据内部特征的差异性,即不同特征权重系数可能不同。为此,本文提出一种基于特征分组的熵正则化多核k均值方法,用于癌症子分类。该方法不需要对数据的分布做假设,并且考虑了单一组学数据内部特征的差异性。方法主要分为以下三个步骤:(1)对不同类型的数据采用NMF算法进行特征分组;(2)对分组后的数据使用高斯径向基核函数计算对应的核矩阵;(3)使用本文改进的熵正则化多核k均值方法,对之前得到的核矩阵进行集成并聚类,得到最终的癌症子分类结果。为了验证熵正则化多核k均值方法的有效性,本文使用多核k均值方法文章中构造的模拟数据集,将该方法与传统的多核k均值方法进行比较。实验表明,改进后的方法相比于传统多核k均值方法在调整兰德系数(ARI)和标准互信息(NMI)等聚类指标上有显著提升。随后,构建三种不同类型的模拟数据从聚类准确性和方法鲁棒性两个层面,验证引入特征分组的思想对于熵正则化k均值算法的提升,实验结果表明引入特征分组之后,方法在ARI和NMI等聚类指标上均有较好的结果。最后,选取TCGA数据库中Breast、AML、GBM、Colon和Liver五种癌症的基因表达、mi RNA表达和DNA甲基化数据,运用该方法分别进行数据集成及癌症子分类,并与现有的基于数据集成的癌症子分类方法SNF、i Cluster Bayes和CIMLR等进行比较。在有金标的Breast癌症数据上计算ARI和NMI等聚类指标,在另外四种没有金标的癌症数据集上进行生存分析,绘制KM生存曲线并计算Cox Log-rank test p-value来评价每种癌症的子类型临床生存时间的差异显著性,随后通过绘制癌症子类型样本三种组学数据分布的箱线图,并计算Kruskal-Wallis检验统计量来评价每种癌症子类型基因表达、mi RNA表达和DNA甲基化的差异显著性。实验结果表明,在五种癌症数据集中该方法在上述指标中的表现均优于现有的癌症子分类方法,从而表明本文提出的基于特征分组的熵正则化多核k均值方法在癌症子分类问题上有较好的表现。
其他文献
自2002年6月,中国吉林省推进了政府雇员制度以来,在全国范围内已有多个城市均已实施了政府雇员制度,但是目前在我国不同城市,政府雇员制度和激励机制却是不尽相同的。哈尔滨
目标识别作为计算机视觉中最受关注的问题之一,近年来也取得了很多重大成果,性能以及识别精度都得到了大幅度的提高。现有的大部分目标识别方法都是在有监督条件下进行的,即
关于非线性系统的控制问题一直是研究的热点。随着科学技术的发展,近代的控制对象的运动轨迹是大范围,模型也大多是多变量、多阶段的,并且人们对系统精度的要求也越来越高。对于这类非线性系统的控制问题,就必须采用一些非线性控制方法,其中有线性反馈控制,自适应控制,鲁棒控制,神经网络控制等方法。自适应控制是人们针对被控系统内部结构和参数的不确定性以及存在外部干扰的情况下产生的,在常规控制理论的基础上,按照一定
资本主义社会中很多学者已经意识到资产阶级与工人阶级之间存在着诸多矛盾。但出于资本的累计,资本主义国家的福利保障制度愈加完善,工人阶级内部开始逐渐产生一定程度的分化
随着我国海洋信息通信技术的不断发展,水下通信安全的重要性日益突出。为了满足海洋通信系统对更高安全性的要求,光通信系统中物理层加密技术受到了广泛的关注。作为一种新型的物理层加密技术:量子噪声流加密(QNSC)具有兼容现有光纤设备且能实现高速、长距离传输的特点,在海底光缆系统、水下无线光通信等领域具有广阔的应用前景。本论文对不同类型水下光通信系统的安全隐患、加密方式以及量子噪声流加密技术进行了调研。并
可注射水凝胶是指在外界环境刺激下能发生溶胶-凝胶转变、形成亲水的三维网络结构的凝胶体系。其具有良好的生物相容性和智能响应性,广泛用于药物输送系统、伤口愈合材料和组织工程等方面。可注射水凝胶作为抗肿瘤药物载体时,能在肿瘤部位持续高剂量释放药物,提高抗肿瘤效果,并避免药物非特异性分布,减少对正常组织的损害作用。但是载药可注射水凝胶在体内会吸附生物大分子蛋白质或者微生物,在植入部位因胶原纤维增生阻碍负载
数学学习习惯是学生学习数学过程中的一种行为习惯,在学生学习过程中发挥着重要的作用,而且在当前教育制度下,考试成绩是衡量学生自身能力的重要标准。良好的学习习惯一定程度上帮助学生适应高中繁重的学业任务,积极的面对高中的各种考试,而没有良好的学习习惯,将会对学生造成一定的影响。而本文将围绕高中生的数学学习习惯、数学成绩的关系进行研究。主要包括以下两个问题:高中生的数学学习习惯、以及各维度的数学学习习惯与
图谱是图论与线性代数的交叉理论.图谱理论的研究主要结合图论和组合数学的理论,利用代数的方法与技巧来研究图的谱及其结构性质.计算图的谱就像确定图的特征多项式一样,是图谱理论中基础而有意义性的一项工作.图的谱以及特征多项式可以帮助我们研究图的一些参数性质,例如色数、连通度、匹配数等.图矩阵的特征值不仅能反映图的参数性质,而且能提供与图能量相关的信息.图的规范Laplacian特征值就是其中之一.此外,
“要不”在现代汉语共时层面上有非词的跨层结构和词并存的现象。词层面的“要不”可以区分为连词和副词两类。连词的次范畴类别包括表示“否则”的“要不_1”和表示“或者”的“要不_2”,副词的次范畴类别包括表示“建议”的“要不_3”和表示“难怪”的“要不_4”。“要不”是在语义动因的促动下,通过句法分析和韵律调整,最终实现词汇化。“不然”可以区分为形容词和连词两大类。形容词的次范畴类别包括表示情形、状况的
在我们日常生活中,经常会出现拥挤堵塞的情况,比如电话占线、银行服务、交通堵塞等情况,排队论就是解决这类问题的有效工具。在排队论的研究进程中,有关的休假系统和重试系统已经被广泛研究,本文讨论了不同排队策略下的重试和工作休假排队模型。本文首先介绍了带有重试和工作休假的排队模型的背景和研究意义,并简单举例描述了研究中涉及到的重试、工作休假、轨道搜索、止步、反馈和碰撞的排队规则。然后利用马尔可夫过程和矩阵