论文部分内容阅读
心血管疾病(Cardiovascular disease,CVD)作为城乡居民健康的头号杀手,在基层社区对CVD进行初筛需求强烈。通过CVD风险预测制定针对性的干预措施,能有效降低发病率,其中核心的技术环节是建立准确性高的预测模型。经济社会发展推动人们生活方式和环境的快速变化,使得CVD危险因素变得复杂,建立新的面向复杂因素的CVD预测模型具有重要应用价值和现实意义。传统的CVD预测用Logistic回归、Cox回归等数理预测法建立公式化的预测模型,受公式的线性拟合能力约束,纳入的因素均为连续型和二分类变量,以非线性数据表述的多分类复杂因素不能适用。而复杂因素中可能包含了重要的潜在信息,对准确地预测CVD贡献较大。神经网络在非线性数据处理中的学习能力、适应能力较强,为解决上述问题提供了思路。以实现面向复杂因素的CVD预测为目标,首先分析回归模型无法面向复杂因素进行CVD预测的具体原因,利用哑变量将复杂因素线性化解决该问题;其次利用浅层神经网络将非线性的复杂因素映射到高维空间进行线性的回归拟合,以实现面向复杂因素的CVD预测,并研究提高模型的AUC(The area under ROC curve)值;最后设计基于深度学习的CVD预测,利用无监督学习改善浅层神经网络参数的初始化策略,降低预测结果的方差值。主要研究工作及结果如下:(1)从模型机理上分析回归模型对复杂因素不适用的原因,采用对复杂因素设置哑变量的方法应用回归模型。实验以Logistic回归为例,包含复杂因素条件下,改进模型的AUC值由Logistic的0.7634、0.6700提升到了0.8784、0.7999,符合传统回归模型的0.78~0.86,表明回归模型不能直接纳入复杂因素。(2)针对CVD复杂因素数据的非线性特征,建立基于浅层神经网络的CVD预测模型,并通过改进网络参数的初始值提高模型预测的准确性。实验结果显示,模型的平均AUC值提高到了0.9024、0.8423。(3)利用深度学习逐层提高CVD数据特征的表达能力,以学习到的最优参数初始化神经网络,解决神经网络参数随机初始化导致的预测不稳定问题,降低预测结果的方差值,提高模型的预测稳定性。实验结果显示,模型的预测结果方差由12.665、9.051降为5.723、4.642,AUC值进一步提高到0.9198、0.8959。