论文部分内容阅读
目的:子宫内膜癌是严重威胁女性健康的生殖系统三大恶性肿瘤之一。早期及晚期确诊和治疗患者的生存差异巨大,缺乏灵敏而特异的生物标志物是子宫内膜癌无创早诊的瓶颈,探寻灵敏度高、特异性强的生物标志物具有重要临床意义。子宫内膜癌是公认的代谢性疾病,代谢标志物的异常对疾病的早期预测及治疗靶点的锚定均起到至关重要作用。血液代谢物丰富且临床样本易得,使其成为临床生物标志物检测的最佳样本,同时也是代谢组学分析的最常用生物样本。脂代谢是肿瘤重要的能量来源,而且脂质作为重要的信号传导分子,不仅能影响细胞的增殖、周期及凋亡,更能够调节细胞间的相互作用,且与肿瘤的演变、进展、转移等过程密切相关。游离脂肪酸作为脂代谢过程中的重要中间产物,已被证实在多种癌症组织中异常表达,且有望成为癌症筛查及早诊的代谢标志物。学术界普遍认为子宫内膜癌的发生与脂代谢异常密切相关。因此,通过研究子宫内膜癌患者血浆中的游离脂肪酸谱,有望找到理想的筛查及早诊的生物标志物。然而,因受饮食、基础疾病、情绪等因素影响血液中单一代谢物在个体间差异大,且在疾病状态下的生物体不仅仅是一个或几个代谢标志物的改变,而是整个代谢模式的变化。因此,应用高通量质谱检测结合大数据建模的方法可有效解决干扰因素影响,实现精准诊断的目的。医学常用建模方法包括经典统计学的Logistic回归和人工智能技术,前者要求数据符合线性特征,对于诠释生物系统中复杂的、多维的、非线性的关系不如后者精准。人工智能技术凭借对疾病信息的整合及再处理在医学领域取得了重要突破,常用的人工智能算法包括单一算法、集成算法、神经网络算法,每类算法各有利弊,转化应用中难以取舍。近年,随着多种人工智能模型在医学各领域研究的深入,各模型之间横向比较的研究逐渐受到关注。但是,子宫内膜癌游离脂肪酸代谢分子诊断模型的构建未见报道,是目前亟待解决的临床问题,可能成为突破子宫内膜癌早筛早诊手段的突破口。因此,本研究旨在建立基于血液游离脂肪酸代谢谱数据的子宫内膜癌代谢分子诊断模型。研究方法:1.首先应用优化的多反应监测技术的液相色谱-质谱仪对2020年2月-2022年8月招募入组的363例患者的血浆样本进行23种游离脂肪酸的靶向检测,通过Analyst MD软件进行质谱数据处理,进一步通过标准曲线法定量血浆中各脂肪酸的含量,最后确定23种游离脂肪酸的定量结果,并通过Mann-Whitney U检验对实验组及对照组进行差异代谢物的统计学分析,应用中位数及四分位数间距对统计量进行描述,筛选出差异代谢物。2.进一步对差异代谢物进行单因素分析及多因素分析,分析差异游离脂肪酸水平与临床病理参数的相关性,找出与疾病进展相关的独立危险因素。3.采用受试者工作特征曲线(ROC)评估12种差异代谢物单一预测模型的鉴别效能,计算敏感度、特异度、准确度、曲线下面积(AUC)等指标。4.利用差异代谢物作为因变量,将患癌结局作为自变量,采用向后选择方法对训练测试集数据构建差异游离脂肪酸Logistic回归分子诊断模型,并计算所构建模型的敏感度、特异度、准确度、曲线下面积(AUC)等指标。5.在外部验证数据集中通过Mann-Whitney U检验对实验组及对照组进行差异代谢物统计学分析,应用中位数及四分位数间距对统计量进行描述,分析差异游离脂肪酸在验证集中的水平及对Logistic回归模型进行验证,并计算所构建模型的敏感度、特异度、准确度、曲线下面积(AUC)、阳性预测值和阴性预测值等指标。6.进一步应用Python软件中的scikit-learn框架包,以差异代谢物做为特征通过标准化法对数据预处理,通过方差过滤法、嵌入法进行特征选择,使用交叉验证及学习曲线相结合方法对人工智能模型进行参数优化,构建决策树、随机森林、支持向量机、Lasso回归以及XGBoost五种人工智能模型,并采用受试者工作特征曲线(ROC)评估预测模型的鉴别效能,计算各种人工智能模型的敏感度、特异度、准确度、曲线下面积(AUC)、阳性预测值和阴性预测值等指标,横向比较五种模型诊断子宫内膜癌的诊断效能,最后确定选用模型。对选用的模型进行外部数据集验证。7.对机器学习过程中最后确定选用的模型和Logistic回归诊断模型进行敏感度、特异度、准确度、曲线下面积(AUC)、阳性预测值和阴性预测值等指标比较。结果:1.利用液相色谱-质谱方法对入组的363例血浆样本进行23种游离脂肪酸的定量检测。其中,在训练测试集中,130例子宫内膜癌患者与93例对照组患者血浆游离脂肪酸含量比较发现肉豆蔻酸、棕榈酸、花生酸、肉豆蔻油酸、棕榈油酸、油酸、二十碳二烯酸、二十碳三烯酸、亚油酸、亚麻酸、二十二碳五烯酸及二十二碳四烯酸共12种游离脂肪酸含量差异显著,在内膜癌组患者血浆中的含量均显著增高,P<0.05。2.进一步对12种差异代谢物与患者临床病理特征相关性分析,发现二十碳三烯酸与深肌层浸润(P=0.013),二十碳二烯酸与肿瘤直径(P=0.029)显著相关。3.此外,将12种差异代谢物分别作为诊断标志物进行子宫内膜癌诊断,结果显示在12种差异代谢物指标中受试者工作特征曲线下面积最高也仅为0.704。4.利用12种差异代谢物构建联合诊断的Logistic模型,训练测试集的敏感度为73.8%,特异度为65.6%,准确度为70.4%,AUC为0.74;5.外部验证集中11种游离脂肪酸在子宫内膜癌组含量均异常增高,且差异显著,与训练测试集阶段获得的结果一致;二十二碳四烯酸在子宫内膜癌组含量呈增高趋势,但两组比较无明显统计学差异。6.差异游离脂肪酸分子诊断模型在验证集中的敏感度为61.4%,特异度为84.2%,准确度为72.9%,AUC为0.74,阳性预测值为80.8%,阴性预测值为68.2%。7.首先将第一部分筛选的12种差异代谢物的定量结果进行数据预处理,利用标准化法对数据进行无量纲化处理,应用方差过滤法、嵌入法进行初步筛选,特征选择后12种特征全部纳入。通过10折交叉验证和学习曲线相结合的方式对各个预测模型进行调参,应用最优参数对五种模型进行建模。其中决策树、随机森林、Lasso回归、支持向量机及XGBoost模型在训练测试集中的敏感度依次为69%、92%、71%、86%、92%,特异度依次为70%、55%、56%、56%、80%,准确度依次为70%、74%、65%、74%、87%,AUC依次为0.7、0.73、0.63、0.71、0.86。XGBoost模型表现最优异,选为选用模型。8.进一步对构建的XGBoost模型进行外部验证,验证集敏感度为88.6%,特异度为71.4%,准确度为80.0%,AUC为0.80,阳性预测值为75.6%,阴性预测值为86.2%。9.选用相同验证集数据,与Logistic回归模型比较,XGBoost模型在敏感度、准确度、AUC、阴性预测值等方面诊断效能显著提高。结论:1.利用液相色谱-质谱方法进行23种游离脂肪酸靶向检测,其中肉豆蔻酸、棕榈酸、花生酸、肉豆蔻油酸、棕榈油酸、油酸、二十碳二烯酸、二十碳三烯酸、亚油酸、亚麻酸、二十二碳五烯酸和二十二碳四烯酸在子宫内膜癌血浆中含量异常增高,并且二十碳三烯酸与深肌层浸润、二十碳二烯酸与肿瘤直径具有较强的相关性。12种差异显著游离脂肪酸联合的多靶标Logistic诊断模型诊断子宫内膜癌的准确性高于任何单一代谢物的模型。2.与决策树、随机森林、支持向量机、Lasso回归比较,应用12种差异代谢物构建的XGBoost模型能更加精准的诊断子宫内膜癌,诊断效能也明显高于Logistic诊断模型。