论文部分内容阅读
针对急性冠状动脉综合征(ACS,Acute Coronary Syndrome)的主要不良心血管事件(MACE,Major Adverse Cardiovascular Events)预测可以辅助医生制定合理的诊疗措施,降低ACS致残率和致死率,在临床精准诊疗和预防性护理中起着至关重要的作用。传统的MACE预测通常使用基于队列研究的风险评分工具,如GRACE、CRUSADE等。虽有价值,却只针对单一类型的MACE,且无法纳入新发现的潜在风险因子、缺乏处理缺失值的能力。近年来,电子健康记录(Electronic Health Records,EHR)的快速发展,为提出数据驱动的MACE预测方法提供了机会和途径。相较于传统的队列研究,数据驱动的MACE预测方法可以充分利用海量EHR,没有严格的出入组标准,数据反应真实临床环境,能够更方便地纳入新的风险因子。然而,数据驱动的研究方法仍然存在着不少挑战,例如:1)某些MACE很少发生,存在类别不平衡问题;2)现有的预测模型忽略了 MACE类型之间、样本之间、特征之间的关联信息,尚未充分挖掘利用EHR的潜在价值。针对以上挑战,本论文提出了一种基于提升—重采样的关系多类型MACE联合预测模型。具体来说,为了解决MACE类别不平衡的问题,本论文提出了提升—重采样框架。对少数类样本过采样,对多数类样本欠采样,迭代地利用获得的平衡子集训练新的MACE预测模型以纠正之前被错误分类的样本;为了更好地处理MACE类型之间、样本之间、特征之间的关联信息,将多类型MACE预测作为多标签学习问题,并将关联信息进行编码,以正则约束的方式引入MACE多标签学习模型。本论文通过从中国某医院收集到的2,930份急性冠脉综合征患者的EHR对所提出的MACE预测方法进行评估,评估结果表明:1)在处理类别不平衡问题上,本论文提出的预测方法能够较好地识别出少数类样本,具有更强的鲁棒性,比其他机器学习分类方法更加适合预测MACE;2)将类别—类别、样本—样本、特征—特征之间的关联信息纳入模型,能有效提高MACE预测性能。本论文提出的数据驱动的多类型MACE预测方法在缺血、出血等MACE预测上要显著优于传统机器学习方法和队列研究模型,充分挖掘了 EHR的价值,为疾病风险预测预警研究提供了崭新的思路和技术手段。