论文部分内容阅读
乳腺癌是危害女性健康的主要恶性肿瘤。新辅助化疗是一项常用在放疗前或局部手术治疗之前的一种全身性药物治疗方法。临床研究表明新辅助化疗后获得病理完全缓解的患者预后较佳,这表明病理完全缓解可以代表一种替代的预后指标。然而,并不是所有的患者能够获得病理完全缓解。因此,急需针对患者能否获得病理完全缓解进行预测研究,从而开展更有针对性的后续治疗。结合乳腺癌患者的临床数据,应用机器学习模型预测新辅助化疗后的病理反应,可以对乳腺肿瘤进行辅助诊断,有助于提高人工诊断方法的准确率和效率,从而提高肿瘤治疗效果。本文采集了吉林大学第一医院乳腺癌患者新辅助化疗数据。采集到的数据比较复杂,包括乳腺癌患者的基本情况、新辅助化疗前后及手术前后的触诊检查、超声波检查、钼靶X线检查和病理评估等多项检查的多个指标。且采集到的数据存在缺失值和部分数据非数值化情况。对采集到的数据,经过数据完整性筛选和数据预处理后,共259例样本构成了本文实验数据集。针对已确立的数据集,首先按照大致等比例划分数据集,然后尝试K近邻(KNN)、决策树(C4.5)、支持向量机(SVM)和随机森林(RF)等分类方法建立模型。这些模型的分类预测精度从60.94%到68.75%不等,且都存在分类结果严重倾向PR类,并没有达到分类的目的。为了解决上述问题,参照样本数最少的CR类,采取等量的方式划分数据集,形成了18个子训练集。分别运用KNN、C4.5、SVM和RF建立了18个单一分类预测模型。然后分别采用Adaboost和多数投票两种集成机制对已建立的各类单一模型进行集成。实验结果表明:集成模型的分类精度都优于对应的单一模型的分类精度;采用多数投票方式的集成模型的分类精度都优于对应的Adaboost集成模型。其中,基于KNN的多数投票集成模型(EKNN)获得了最好的分类精度。EKNN模型对乳腺癌患者新辅助化疗后病理反应的分类预测精度是77.78%,且分类均衡。EKNN模型的Kappa系数为0.67,说明分类效果很好。这些表明本文建立的EKNN模型具有良好的预测能力,能够对乳腺癌新辅助化疗后病理反应进行预测。