论文部分内容阅读
世界卫生组织的统计数据显示,肺癌是全球范围内发病率及死亡率最高的恶性肿瘤,其中全球因肺癌致死的人中超过1/3来自中国。目前,越来越多的晚期癌症患者面临过度治疗问题,并且患者四处盲目求医的现实情况不仅增加了医生全面诊断出患者病情的难度,也令医生无法及时针对患者的疾病进展给出治疗建议。近年来,随着电子病历的不断推广,围绕肿瘤患者病情进展的建模研究已成为广大医疗工作者和科研人员的新兴热点研究课题。从系统工程的角度,干预措施首先影响易于观测的宏观机能指标,进而反应至肿瘤的进展程度。结合临床医生的经验,患者个体症状变化的特征模式能一定程度反映疾病的进展情况。因此,本文以晚期肺癌患者作为研究对象,将机体的临床检测指标类比为控制系统的状态观测向量,以癌症进展作为分析切入点,将干预措施对肿瘤进展的控制效果建模为历次检测指标序列与肿瘤进展之间的动态关系模型,提出了基于个体症状特征序列且与干预措施无关的恶性肿瘤进展预测模型的建模方法。本文的研究内容可以分为以下四部分:(1)医学临床随访数据存在缺失是不可避免的,对缺失数据进行合理有效的填补是建模的基础。通过对医学随访数据的特点及后续采用模型对输入变量的要求做出分析,本文提出结合现有填补方法优势及局限性,判断缺失机制,分别采取均值填补法、单值填补法、末次转结填补法对数据进行预处理。并且,采用本文提出的基于期望极大化算法的多值填补法对不同缺失率的临床随访数据进行填补,不仅得出30%至50%的缺失率下多重填补法效率最高的结论,而且为后续建模奠定了完整数据集的基础。(2)为了证实个体症状特征的变化序列模式与疾病进展情况之间存在映射关系,本文提出将中医扶正祛邪的方法与西医不同的治疗手段有机结合,充分利用纵向数据中隐藏的由截面和时间序列相结合的自相关性,采用回归分析方法建立预测模型。本文提出了分类型软指标数据的症状变化模式编码方法,基于Logistic回归模型建立了以患者个体症状变化特征为输入、疾病进展情况为输出的预测模型,对肺癌晚期患者的疾病进展预测正确率为90.7%,并利用ROC曲线对模型的有效性及正确性做出验证。(3)为了探索随访记录中患者个体症状的变化特征,将离散的随访时间序列值聚集为可数的类模式,进而探索可数特征模式与疾病进展或生存状态之间的映射关系,本文利用层次聚类法和划分聚类法对临床随访所得的中医软指标时间序列数据进行聚类分析,从理论和实践分别对比了两种方法的优势及局限性,得到能够表达病症变化特征的可数类模式。(4)为了建立基于个体症状特征且与干预措施无关的恶性肿瘤进展预测模型,本文提出基于前馈型人工神经网络的预测模型。通过分析现有神经网络的局限性,从网络拓扑结构和训练策略两方面对模型做出优化,采用相关系数法进行变量筛选以提高模型学习效率,并提出引入动量系数以提高收敛速率。利用十折交叉法对模型进行验证,仿真数据验证本文所提出的预测模型对肺癌晚期患者的疾病进展的预测正确率达到88.39%,验证了本文构建的基于人工神经网络的预测模型的有效性和普适性。