论文部分内容阅读
作为人工智能领域的一大分支,机器学习在近几年来一直蓬勃发展并不断的进行跨学科合作。在医学领域,医疗图像诊断、治疗查询和建议、医疗数据收集、药物发现、机器人手术等新鲜内容的涌现都得益于此。在所有医学病症中,癌症作为恶性疾病始终是医疗从业者努力的方向。肺癌在癌症排行中常年稳居第一,其中85%都是非小细胞肺癌(NSCLC),因此这是一个恶性度极高的癌症。鉴于非小细胞肺癌的高发病率,做好患者的预后成为了重中之重。在现有发表的文献中,受制于随访数据的缺失、数据量的单一等问题,临床上针对非小细胞肺癌的预测模型较少。有些医院通过自己研发的程序进行预测,但样本全取自本医院的患者。即使是三甲医院,该医院的患者也大都是周边城市前来看病的。从统计学的角度来讲,数据本身具有偏倚,普适性不是最高。目前使用的模型中准确率最高的是72.87%,共计样本量683。该研究以亚洲肿瘤患者为主要研究对象构建其生存预测模型,对判断患者术后5年的生存率做了预测研究。然而作为恶性度极高的疾病,仅仅看5年生存指标已经不足以满足临床需求。因此临床上需要有较大样本量,信息完整、预测效果较准确并且可以广泛应用的预后预测模型。
为解决上述问题,本文将多个机器学习模型引入,通过医疗数据平台获取较大的样本量进行分析。该平台覆盖全国,收录了来自全国医疗系统近百家医院或机构的诊疗数据,这些医院主要分布在山东、天津、北京、河南、广州、上海等地区,覆盖了3000万左右的患者数据。可以一定程度上弥补单中心样本存在的偏倚性问题。
依托于某健康医疗大数据平台,本文筛选符合入选标准的相关临床数据,在清洗和标准化后整合成目标数据集并随机拆分为训练集和测试集;在训练集上构建并优化机器学习模型,预测患者术后2年以及5年内肺癌的复发情况,并在测试集上验证和比较各模型的预测结果。为确保模型尽可能符合实际应用,本研究中还邀请了5位临床专家在自变量的筛选中给与宝贵的临床建议。
得到预测结果后,通过混淆矩阵、准确度、ROC曲线下面积(ALIROC)以及精确率和召回率这几个参数进行不同维度的对比。通过多个模型的对比,来找出适用于非小细胞肺癌预后预测的最优模型。在预测肺癌术后复发的不同模型中,Logistic回归预测性能整体良好,而非参数模型的预测性能并未显著提升甚至表现更差(尤其是KNN分类器)。基于深度学习的神经网络模型却可以大大提高预测的准确度和分类效果,相比Logistic回归模型具有更佳的预测结果和性能优势。在预测2年复发和5年复发时均表现出优异的准确性,分别达到86.2%和83.0%。
本研究意在从跨学科的角度帮助临床医生更高效更精准地完成工作。采用大样本的真实世界临床诊疗数据对早期NSCLC患者术后复发进行预测可以反映和代表真实世界中出现的各种情况,对于研究和了解中国早期NSCLC患者的发病特征和术后预后具有重要的科学价值和临床意义。另一方面,借鉴机器学习的方法学和模型算法,可以更加全面地预测NSCLC术后复发风险,为一线临床医生对于患者病程的决策提供更多有价值的信息。
早发现、早诊断、早治疗是医学上始终推崇的三早理念。我们的研究也正契合了这一点。如果患者可以提前被预警复发风险,医生就可以对其进行提前干预,避免病程发展至晚期或者已经发生转移时再开始治疗,避免错过最佳治疗时间。期望本次研究可以给医学领域提供一种可能,为医生以及患者提供有价值的参考帮手。
为解决上述问题,本文将多个机器学习模型引入,通过医疗数据平台获取较大的样本量进行分析。该平台覆盖全国,收录了来自全国医疗系统近百家医院或机构的诊疗数据,这些医院主要分布在山东、天津、北京、河南、广州、上海等地区,覆盖了3000万左右的患者数据。可以一定程度上弥补单中心样本存在的偏倚性问题。
依托于某健康医疗大数据平台,本文筛选符合入选标准的相关临床数据,在清洗和标准化后整合成目标数据集并随机拆分为训练集和测试集;在训练集上构建并优化机器学习模型,预测患者术后2年以及5年内肺癌的复发情况,并在测试集上验证和比较各模型的预测结果。为确保模型尽可能符合实际应用,本研究中还邀请了5位临床专家在自变量的筛选中给与宝贵的临床建议。
得到预测结果后,通过混淆矩阵、准确度、ROC曲线下面积(ALIROC)以及精确率和召回率这几个参数进行不同维度的对比。通过多个模型的对比,来找出适用于非小细胞肺癌预后预测的最优模型。在预测肺癌术后复发的不同模型中,Logistic回归预测性能整体良好,而非参数模型的预测性能并未显著提升甚至表现更差(尤其是KNN分类器)。基于深度学习的神经网络模型却可以大大提高预测的准确度和分类效果,相比Logistic回归模型具有更佳的预测结果和性能优势。在预测2年复发和5年复发时均表现出优异的准确性,分别达到86.2%和83.0%。
本研究意在从跨学科的角度帮助临床医生更高效更精准地完成工作。采用大样本的真实世界临床诊疗数据对早期NSCLC患者术后复发进行预测可以反映和代表真实世界中出现的各种情况,对于研究和了解中国早期NSCLC患者的发病特征和术后预后具有重要的科学价值和临床意义。另一方面,借鉴机器学习的方法学和模型算法,可以更加全面地预测NSCLC术后复发风险,为一线临床医生对于患者病程的决策提供更多有价值的信息。
早发现、早诊断、早治疗是医学上始终推崇的三早理念。我们的研究也正契合了这一点。如果患者可以提前被预警复发风险,医生就可以对其进行提前干预,避免病程发展至晚期或者已经发生转移时再开始治疗,避免错过最佳治疗时间。期望本次研究可以给医学领域提供一种可能,为医生以及患者提供有价值的参考帮手。