论文部分内容阅读
背景:血液系统恶性肿瘤(Hematological Malignances,HM)是一类严重影响人群健康的恶性肿瘤。早期诊断HM,无论是对提高患者生存率,还是对节约医疗费用,均至关重要。构建早期、廉价、无创、灵敏、特异、高效的HM筛查模型,从而及早筛查高危个体,是达到这一目标的前提。然而,目前已有的HM筛查模型,均采用基于医院场景的病例对照研究设计。此种设计类型,往往采用1:1或1:2等阳性样本与阴性样本的比例。此种情况下,样本中的患病率为50%或33%等,远远高于真实世界社区人群中的HM患病率。基于上述病例对照设计所构建的HM筛查模型,即使灵敏度、特异度均达到很高的水平,当其运用于真实目标人群时,阳性预测值也会很低,因而其实际应用价值大打折扣。研究目标及方法:基于“山东全人群全生命周期健康医疗大数据队列”和“山东多中心健康管理队列”,构建符合人群HM年龄、性别患病率分布实际情况的建模数据集;进而,采用血常规检测指标,通过对比XGBoost、LightGBM、随机森林三种集成学习算法,筛选适于真实世界目标高危人群的最优HM筛查模型,并开发HM筛查辅助APP在线工具。为基层医疗机构或社区人群提供廉价、安全且操作简单的辅助筛查手段,旨在尽早筛查出HM高危个体,缩短就医时限、提高早诊早治率、节省医疗成本、避免患者及家庭不必要的身心创伤。结果:1、人群中HM患病水平18岁以上人群HM总患病率为94.02/10万,男性和女性的HM患病率均随年龄增加而逐渐增大。从50岁开始,人群的HM患病率高于100/10万,本研究将50岁以上人群定义为HM高危人群,并作为本研究所构建的HM筛查模型的目标人群。该高危人群HM总体患病率为143.16/10万。2、构建HM筛查模型的数据集以HM高危人群(50岁以上)中具备完备血常规指标的3971例HM患者,作为构建HM筛查模型的病例组。依据HM高危人群(50岁以上)的年龄、性别构成及其HM年龄性别患病率(总患病率为143.16/10万),从队列中具备完备血常规指标的非HM人群中,按年龄性别构成抽取对照组(2769780人)。从而,构建了与真实世界随机抽样高危HM目标人群的患病率一致的模拟建模样本人群。确保了所构建的HM筛查模型在真实世界社区人群中的可行性。3、HM最优筛查模型(1)基于上述所构建的建模数据集,综合比较随机森林、LightGBM、XGBoost这三种模型的阳性预测值、灵敏度、特异度、阴性预测值和AUC发现:①在患病率由高到低的 B(50%)、C(30%)、D(10%)、E(5%)、A(0.143%)、F(0.072%)的训练集中所建立的训练模型,在符合真实世界患病水平的测试集T(0.143%)中验证时,随着训练集中的HM患病率与测试集中的HM患病率差距的逐渐减小,三种筛查模型的阳性预测值外推泛化能力逐渐增高;当测试集HM患病率与训练集HM患病率一致时,三种预测模型的阳性预测值均获得其最佳效果;但是,此时XGBoost模型的阳性预测效果仍然优于LightGBM模型与随机森林模型。②随着训练集中的HM患病率与测试集中的HM患病率差距的逐渐减小,三种筛查模型的灵敏度逐渐减小、XGBoost模型优于LightGBM模型与随机森林模型。③随着训练集中的HM患病率与测试集中的HM患病率差距的逐渐减小,三种筛查模型的特异度、阴性预测值、AUC均变化不大且维持在很高水平;其中,XGBoost仍表现良好。(2)以模型阳性预测值为核心评价指标,以灵敏度、特异度、阴性预测值、AUC为辅助评价指标的建模策略及模型筛选准则,选择了依据患病率符合真实世界社区人群HM患病率的训练集(A)与测试集(T)所构建的XGBoost HM筛查模型,为最优筛查模型。该模型的阳性预测值为86.81%,灵敏度为83.39%,特异度为99.98%,阴性预测值为99.98%,AUC为0.991。4、HM辅助筛查APP在线工具基于Flutter开发的HM辅助筛查APP在线工具,实现了 HM高危个体的在线识别和预警,为HM的早期发现,提供了适宜工具。结论:(1)真实世界社区人群中HM高危人群(50岁以上)患病率为143.16/10万,阳性组(HM患者)与阴性组(非HM患者)之间存在严重的数据不平衡问题。(2)针对此类数据不平衡问题,基于XGBoost算法所构建的HM高危个体筛查模型具有良好的表现,是在真实世界社区人群中,筛查HM高危个体的最佳模型;其阳性预测值高达86.81%,灵敏度为83.39%,特异度为99.98%,阴性预测值为 99.98%,AUC 为 0.991。(3)所开发的HM辅助筛查APP在线工具,为基层医疗机构或社区人群提供了廉价、安全且操作简单的HM高危个体筛查方法,为尽早筛查出HM高危个体,达到缩短就医时限、提高早诊早治率、节省医疗成本、避免患者及家庭不必要的身心创伤,提供了便捷的在线工具。