论文部分内容阅读
中国是一个慢性肝炎高发的国家,慢性肝炎患者的数目多达数千万。这其中约有十分之一到三分之一的肝炎患者会发展成为肝硬化,而肝纤维化则正是肝炎转化为肝硬化的必经病理过程。如果医生能对肝纤维化病人及时做出诊断,并对病人进行相应的抗纤维化治疗,那么医生在很大程度上就可以减缓或终止病人的肝炎先从肝纤维化发展成为肝硬化,最后发展成为肝癌的这一过程。目前临床上肝纤维化检查和等级分期的金标准是肝穿刺活检,它不仅有很大的创伤性,还有存在抽样误差、引发并发症的风险。因此,对肝纤维化无创诊断方法的研究具有重大的现实意义。肝纤维化无创诊断方法主要分为血清学诊断和影像学诊断方法。血清学诊断是利用患者的医学指标(如透明质酸、层粘连蛋白等)来反映肝纤维化严重程度,影像学诊断则是利用超声技术来对肝脏的硬度进行测量。本文在血清学诊断方法的基础上结合了影像学诊断方法,共保留了24个特征(23个医学指标和1个影像学指标)。此外,本文还基于性别和年龄构造了新的特征,进一步地挖掘病人数据内的信息。现有的文献大多是在省市、国家以及洲际层面下研究较为通用的肝纤维化无创诊断模型,或是仅针对单家医院的数据建模。少有论文将研究目光投向跨医院的肝纤维化无创诊断模型,而这正是本文的研究重点。本文的研究情景是某新设立的医院有一些待诊断的肝纤维化病患,该医院需要利用其他医院带诊断结果的病患数据来建立适用于本医院的分类模型。也就是说需要用一家医院带标签的数据来预测另一家医院新病人的肝纤维化等级。然而来自不同医院的病人数据间的分布并不相同,无法满足传统机器学习问题中独立同分布的假定。对此,本文引入了迁移学习来通过特征映射达到减小(映射后的)数据分布差异的目的。本文在第3章中使用迁移成分分析方法(TCA)来减小两家医院病人数据的边缘分布之间的距离,在第4章中使用联合分布适配方法(JDA)来同时减小两家医院病人数据的边缘分布和条件分布之间的距离。然后,将这两家医院映射后的数据分别用于训练和预测肝纤维化等级分类模型。本文还将基于迁移学习的肝纤维化无创诊断模型的效果与基于传统机器学习的模型的效果进行了比较。实验结果表明,基于迁移学习的诊断模型的分类效果要优于基于传统机器学习的模型的效果。