基于机器学习模型预测早期非小细胞肺癌术后复发转移风险

来源 :上海财经大学 | 被引量 : 0次 | 上传用户:gzw39
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
作为人工智能领域的一大分支,机器学习在近几年来一直蓬勃发展并不断的进行跨学科合作。在医学领域,医疗图像诊断、治疗查询和建议、医疗数据收集、药物发现、机器人手术等新鲜内容的涌现都得益于此。在所有医学病症中,癌症作为恶性疾病始终是医疗从业者努力的方向。肺癌在癌症排行中常年稳居第一,其中85%都是非小细胞肺癌(NSCLC),因此这是一个恶性度极高的癌症。鉴于非小细胞肺癌的高发病率,做好患者的预后成为了重中之重。在现有发表的文献中,受制于随访数据的缺失、数据量的单一等问题,临床上针对非小细胞肺癌的预测模型较少。有些医院通过自己研发的程序进行预测,但样本全取自本医院的患者。即使是三甲医院,该医院的患者也大都是周边城市前来看病的。从统计学的角度来讲,数据本身具有偏倚,普适性不是最高。目前使用的模型中准确率最高的是72.87%,共计样本量683。该研究以亚洲肿瘤患者为主要研究对象构建其生存预测模型,对判断患者术后5年的生存率做了预测研究。然而作为恶性度极高的疾病,仅仅看5年生存指标已经不足以满足临床需求。因此临床上需要有较大样本量,信息完整、预测效果较准确并且可以广泛应用的预后预测模型。
  为解决上述问题,本文将多个机器学习模型引入,通过医疗数据平台获取较大的样本量进行分析。该平台覆盖全国,收录了来自全国医疗系统近百家医院或机构的诊疗数据,这些医院主要分布在山东、天津、北京、河南、广州、上海等地区,覆盖了3000万左右的患者数据。可以一定程度上弥补单中心样本存在的偏倚性问题。
  依托于某健康医疗大数据平台,本文筛选符合入选标准的相关临床数据,在清洗和标准化后整合成目标数据集并随机拆分为训练集和测试集;在训练集上构建并优化机器学习模型,预测患者术后2年以及5年内肺癌的复发情况,并在测试集上验证和比较各模型的预测结果。为确保模型尽可能符合实际应用,本研究中还邀请了5位临床专家在自变量的筛选中给与宝贵的临床建议。
  得到预测结果后,通过混淆矩阵、准确度、ROC曲线下面积(ALIROC)以及精确率和召回率这几个参数进行不同维度的对比。通过多个模型的对比,来找出适用于非小细胞肺癌预后预测的最优模型。在预测肺癌术后复发的不同模型中,Logistic回归预测性能整体良好,而非参数模型的预测性能并未显著提升甚至表现更差(尤其是KNN分类器)。基于深度学习的神经网络模型却可以大大提高预测的准确度和分类效果,相比Logistic回归模型具有更佳的预测结果和性能优势。在预测2年复发和5年复发时均表现出优异的准确性,分别达到86.2%和83.0%。
  本研究意在从跨学科的角度帮助临床医生更高效更精准地完成工作。采用大样本的真实世界临床诊疗数据对早期NSCLC患者术后复发进行预测可以反映和代表真实世界中出现的各种情况,对于研究和了解中国早期NSCLC患者的发病特征和术后预后具有重要的科学价值和临床意义。另一方面,借鉴机器学习的方法学和模型算法,可以更加全面地预测NSCLC术后复发风险,为一线临床医生对于患者病程的决策提供更多有价值的信息。
  早发现、早诊断、早治疗是医学上始终推崇的三早理念。我们的研究也正契合了这一点。如果患者可以提前被预警复发风险,医生就可以对其进行提前干预,避免病程发展至晚期或者已经发生转移时再开始治疗,避免错过最佳治疗时间。期望本次研究可以给医学领域提供一种可能,为医生以及患者提供有价值的参考帮手。
其他文献
新疆是我国最大的植棉区,2017年棉花种植面积和产量分别占全国的60.8%和74.4%。新疆绿洲棉花生产集约化、机械化程度高,导致棉花常年连作,同时秸秆全量还田成为绿洲农田有机培肥的主要方式。棉花长期连作导致连作障碍发生严重,使土壤肥力下降,棉花品质下降。土壤氮素(N)是土壤肥力的重要组成部分,也是作物氮素营养的主要来源,结合无机态氮和有机氮组分的含量特征以及有机氮的矿化特征,可以综合反映土壤肥力
学位
【目的】在北疆独有的气候条件下,开展不同施氮量和基追比条件下滴灌甜菜地上和地下部分干物质积累、叶片光合生理特性、碳氮代谢产物及其关键酶活性的研究,目的在于明确氮肥调控下滴灌甜菜地上地下部分的生长规律、叶片光系统响应以及糖氮代谢特征,揭示氮肥调控下滴灌甜菜产量和品质协同提高的机理,旨在为北疆高产优质滴灌甜菜氮素管理提供理论依据。  【方法】试验以Beta356和KWS9147为供试材料,于2017和
学位
背景:越来越多的统计数据表明,随着环境污染等因素的影响,近几年的实体肿瘤发生率出现升高趋势,已经逐步成为影响着人类健康的重大疾患之一。就治疗方式的选择而言,目前对于多数实体肿瘤而言,其主要的首选治疗方式仍然是早期的手术治疗,化疗和放疗一般往往被用作辅助或保守治疗的手段,生物治疗和中医中药治疗也逐步体现出了重要的辅助或支持治疗作用。然而,国内外多数学者的研究结果表明,无论是化学治疗抑或是放射治疗,它
[目的]青光眼滤过性手术是目前治疗青光眼的主要手段,但术后滤过泡瘢痕化往往会导致手术的失败。在眼部,TGF-β2是参与创伤愈合和纤维化的重要调控因子,在滤过泡的纤维化过程中发挥了重要的调控作用。本实验应用干扰RNA方法抑制人胚胎眼Tenons囊成纤维细胞(HFTF)内TGF-β2的表达,以确定该方法能否抑制青光眼滤过术后滤过泡的瘢痕化,从而提高手术成功率。 [方法]将干扰RNA质粒p93
学位
目的:  在细胞水平,研究14-3-3γ蛋白参与内毒素耐受抗心肌细胞缺氧/复氧损伤的分子机制,即14-3-3γ蛋白是否将phospho-GSK3β靶向定位于胞浆完成对胞浆中β-catenin的调控,从而影响炎症因子的转录,进而起到内毒素耐受抗心肌细胞缺氧/复氧损伤的作用。  方法:  我们采用的是H9c2心肌样细胞,并构建体外的缺氧/复氧损伤模型。将H9c2细胞分5组进行实验操作:Control(
目的:  在细胞水平上探讨miR-128是否通过PTEN/PI3K/Akt信号通路调控DJ-1蛋白的表达,进而影响Ishikawa子宫内膜癌细胞的增殖、细胞周期、凋亡、侵袭迁移等生物学功能。  方法:  1.利用RealtimeRT-PCR技术分别检测正常子宫内膜组织、子宫内膜癌组织、正常子宫内膜细胞系ESC以及子宫内膜癌细胞系Ishikawa中miR-128、PTENmRNA、DJ-1mRNA表
目的:  研究木犀草素对LPS致H9c2心肌样细胞损伤的保护作用,并从线粒体自噬通路初步探讨其机制。  方法:  (1)为确定LPS在线粒体自噬水平上的变化,先采用蛋白质印迹方法检测细胞线粒体自噬蛋白LC3、P62及Beclin1的表达水平。再利用线粒体自噬抑制剂CsA在线粒体自噬水平上对心肌样细胞进行观察;通过CCK8检测细胞的存活率,LDH检测细胞活性,CK检测心肌损伤程度,qRT-PCR检测
学位
研究背景和目的:  他克莫司(Tacrolimus,TAC)是器官移植术后免疫抑制方案的一线用药,但它治疗窗窄,个体化差异大。此外,免疫抑制药物价格昂贵需终生服用,这给患者家庭带来沉重的经济负担。五酯胶囊是目前临床常用的他克莫司增效剂,但存在成分复杂,不易定量等缺点,五味子甲素(Schizandrin,Sch-A)是药典中标示五酯胶囊含量的主要成分。因此,探索新型他克莫司小分子增效剂具有实际的临床
学位
棘皮动物微管相关类蛋白4-间变性淋巴瘤激酶(EML4-ALK)融合基因被证实为肺癌的重要驱动基因,在非小细胞肺癌(NSCLC)中占3%~5%。针对该靶点的ALK抑制剂是当前抗NSCLC伴ALK阳性的重要药物,然而,耐药问题极大地限制了该类药物的临床应用。因此,开发不易产生耐药性的新型ALK抑制剂是目前研发的热点。  本文经研究发现,ALK抑制剂与组蛋白去乙酰化酶(HDAC)抑制剂联用,不仅可以发挥
目的:  探讨穿心莲内酯(Andrographolide, AD)对完全弗氏佐剂(Complete Freunds adjuvant, CFA)诱导关节炎大鼠的抗炎作用机制、氧化应激反应及中性粒细胞聚集作用的影响。  方法:  (1)动物模型构建及分组:在大鼠足跖皮下注射0.1ml CFA(1mg/ml),诱导建立SD大鼠类风湿关节炎模型,实验分为6组,每组8只:空白组,即正常对照组,适量1%羧甲