基于基因的皮肤恶性黑色素瘤患者生存分析

来源 :云南财经大学 | 被引量 : 0次 | 上传用户:bingqing1980
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
目前,癌症已经成为人类第二大死亡原因,新增患癌人数日渐增长,并且表现出年轻化趋势。研究发现黑色素瘤患者中有58%与遗传有关,所以从基因层面进行分析,对于癌症的诊断和治疗都起到很大作用。近年来,国内外学者常用基因分析方法包括差异表达分析、特征提取、特征选择、生存分析以及GO富集分析等。本文基于TCGA数据库中的467个皮肤恶性黑色素瘤组织的基因表达数据和患者临床数据结合GTEx数据库中500个健康皮肤组织的基因表达数据进行相关分析。1.差异基因表达分析基于467个皮肤恶性黑色素瘤组织基因表达数据和500个健康皮肤组织的基因表达数据进行差异基因表达分析,使用方法为DESeq2。基因差异分析结果显示:差异倍数大于2且显著的基因有13507个,甚至差异表达在10倍以上的基因有2575个,其中包括1047个上调基因和1528个下调基因,说明皮肤恶性黑色素瘤组织和健康皮肤组织的基因表达差异非常大。2.使用过滤式和封装式两步特征选择方法进行特征基因筛选。(1)过滤式特征选择首先使用过滤式特征选择方法进行基因初筛:第一步使用Spearman相关系数去除与皮肤恶性黑色素瘤无关的基因,在显著性检验P<0.1且Spearman相关系数大于0.4的条件下,保留13566个基因;由于第一步降维效果不明显,所以第二部使用m RMR算法,将阈值设置为500,即保留500个基因。(2)封装式特征选择本文使用随机森林递归特征消除法(RF-RFE)、基于袋装树递归特征消除法(Treebag-RFE)和基于随机森林模拟退火算法(RF-SA)三种封装式特征选择算法筛选特征基因,三种方法分别保留30个基因、57个基因和103个基因。(3)分类能力评价主要利用基于高斯核函数的非线性支持向量机的分类效果做对比,评价指标包括分类准确率、分类精度、召回率、F-measure和AUC,经过分类结果对比,RF-RFE筛选出的30个特征基因在基因数量最少且分类效果最好,最终决定保留这30个特征基因用于后续生存分析。3.结合皮肤恶性黑色素瘤患者的临床数据,将30个特征基因作为协变量进行生存分析。(1)Cox比例风险回归对30个特征基因进行单因素Cox比例风险回归分析,在满足PH假定的条件下,显著性P值设置为0.1,得到9个与患者生存显著相关的基因,分别为CITED、AP1S2、USP11、SDC3、SNX10、EN2、EOMES、CHST11、FOXRED2。(2)K-M生存分析将Cox回归分析得到的9个与患者生存情况显著相关的基因进行K-M生存分析,画出KM生存曲线,最终得到基因高表达和低表达对患者生存情况存在显著影响的4个基因SNX10、AP1S2、EN2、USP11。本文的研究目的旨在通过分析皮肤恶性黑色素瘤组织的基因表达情况,找到与皮肤恶性黑色素瘤相关的基因,皮肤恶性黑色素瘤的诊断;通过生存分析得到与患者生存显著相关的基因,用以皮肤恶性黑色素瘤患者的治疗和预后判断。
其他文献
支持向量机是一种有监督的机器学习方法,通过寻找最大间隔超平面,用于解决二分类问题。双子支持向量机是在支持向量机的思想基础上发展而来,其主要思想是,寻找一对非平行的超平面,使每一个超平面接近一类而远离另外一类,通过样本点到两个超平面距离的远近来判断类别。支持向量机和双子支持向量机目前还存在一些局限性。从模型预测结果来看,在解决大样本任务或处理高维度数据时,效果没有神经网络那么理想。从计算效率的角度看
学位
朴素贝叶斯(naive Bayes,NB)是一种经典的机器学习方法,具有优异的分类精确度以及对噪声的稳健性。朴素贝叶斯经典算法基于两大理论,其一是贝叶斯定理,即后验概率依据先验概率和联合概率而得出;其二是特征条件独立的假设,即假设特征之间是相互独立的,联合概率的计算依据这一假设由特征的条件概率连乘而得。但是,由于其基于特征条件独立的强假设在实际应用中是不可能成立的,因此在一定程度上,限制了朴素贝叶
学位
医疗行业与人类的生命健康息息相关。特别地,新冠疫情的蔓延,国民生命安全意识的提高,推进了医学研究的发展。在医疗卫生领域中,单一评价指标无法对患者进行全方位考核。跟踪了解病人生存状态,统计一段时期内患者的生命体征,确定诊断的具体方案,是医学行业的现状。预后是医学研究关注的重点,通过分析观测数据,临床医生可以制定治疗方案,患者可以认清自身疾病状况。预后对临床医学影响深远。生存分析是医学领域常用的分析方
学位
进入21世纪以来,中国经济取得一系列令人瞩目成就的同时,资源过度消耗和环境污染等问题也日益严重。面对日益严峻的生态环境形势,推动高质量发展要求我们深入转变经济发展方式,改变原有经济考核制度,将资源消耗和环境污染一同纳入经济发展评价体系。在此背景下,绿色全要素生产率的概念应运而生。作为重要的外源动力,外商直接投资(Foreign Direct Investment,FDI)对绿色全要素生产率的影响不
学位
随着计算机性能和算力的提升,使得具有便捷性、精确性、迅速性和智能化等优点的机器视觉技术应用于工业生产的各个领域成为重要的研究方向。烟丝生产过程中的杂质检测和剔除是保障烟草产品质量的重要环节,将机器视觉的相关技术应用于烟丝除杂任务,可以有效缓解生产过程中对人工的依赖,在降低人工成本的同时,提高产品生产的自动化水平。烟丝除杂,重在检测。近年来,已有研究者对产品生产过程中的杂质检测方法进行了研究,但是对
学位
作为遏制流行病最有效的手段之一,接种疫苗在各个国家和地区中受到广泛采用。如何在提高接种水平的同时降低社会总成本是大家关注的重要命题。而个体做决定通常会比较自身收益和学习对象的收益,只有感觉到获益才会继续上一阶段决策,否则就会改变策略。我们关注如何使个体在做决策时倾向于更有利于全社会的方向问题展开研究。因此,本文设计两种领域扩展模型,通过扩展领域来分析如何达到整体患病规模较小且社会总成本最低,即社会
学位
身份认证在互联网上对确保信息安全和建立信任关系至关重要。随着互联网技术的发展,基于网络的安全应用越来越多,如电子商务,电子政务等,从而对网络环境下的用户身份认证提出了更高要求。但传统身份认证系统中存在的缺点,已不能适应当前社会发展的需求,需要通过灵活应用技术进行创新和扩展。此外,由于用户之间缺乏有效的身份验证机制,导致很多用户在使用云计算平台时无法得到可信第三方的支持,从而产生了严重的信任危机。随
学位
新型城镇化与生态环境的协调发展是走中国特色城镇化道路不可或缺的前提条件。新时期新型城镇化与生态环境协调发展的主要内容是合理配置资源,注重环境保护,推进以人为本的新型城镇化。现有研究的一致结论是,中国新型城镇化与生态环境的总体发展趋于协调状态。但由于受宏观经济形势、区域产业结构和生态环境等因素的影响,新型城镇化和生态环境发展不平衡不充分问题仍然突出。由于各地区新型城镇化与生态环境统筹发展的特点,统筹
学位
肝癌较高的死亡率与其确诊时间有很大关系,人工智能技术的发展为肝病的早期诊断带来了新的机遇,为患者提供了更大的治愈空间。近年来,越来越多的研究验证了深度学习框架下的多模态超声在辅助医生诊断过程中的价值,但是研究多集中在乳腺和甲状腺病变上,肝脏病变的研究还较少。且相比单模态超声诊断模型,多模态模型的特征融合和优化方式也影响着分类性能,同时,多数研究通常平等地对待各模态,忽略了不同模态对疾病诊断贡献不同
学位
本文主要研究如何通过充分降维对核支持向量机(Kernelized Support Vector Machine)进行改进。在机器学习领域中,支持向量机(Support Vector Machines,SVM)是一种重要的分类器。核支持向量机则是为了应对复杂分类问题而对支持向量机的改进,其主要思路是通过映射函数对原特征进行改变或增维。在核支持向量机中,核函数起着重要作用。根据核函数,可以基于原样本点
学位