论文部分内容阅读
目的:1.探究影响冠心病的危险因素,探讨冠心病的主要危险因素;2.了解冠心病并发症的分布情况,探讨冠心病并发症,尤其是心力衰竭的主要危险因素;3.建立冠心病合并心力衰竭危险因素的预测模型,并且比较决策树及Logistic回归的性能,提高临床病人的生活质量及生存率。方法:收集某三甲医院2016年3月至2017年3月期间,冠心病住院患者的临床资料,共计423例,研究变量包括基本信息(年龄、性别、体重、身高、吸烟史、饮酒史)、既往病史(有无呼吸道感染病史、慢性肺部疾病史、脑梗塞病史、本次住院有无新发脑梗塞、冠心病史、高血压病史、糖尿病史)、实验室数据(血常规、血脂、肾功、离子1、肝功、尿常规、乙肝中的部分数据)、并发症(心力衰竭、心律失常、休克、心肌梗塞)共69个变量。采用Weka3.8软件进行数据一般资料分析:运用百分比和频数的方法对患者的一般资料情况进行描述统计;采用SPSS18.0软件中的主成分分析对数据进行降维预处理;分别应用Weka3.8软件中的分类算法即决策树算法中的J48算法和Logistic回归建立模型分析冠心病合并心力衰竭的危险因素并比较两种算法的性能,确定适合冠心病并发心力衰竭的危险因素分析的评估和研究的算法;应用Weka3.8软件中的Apriori算法对冠心病合并心力衰竭患者的危险因素进行关联分析。结果:1.冠心病合并并发症的情况本论文研究的冠心病并发症有心肌梗塞、心力衰竭、休克及心律失常,本次研究中发现在冠心病合并并发症的患者中,合并心力衰竭的患病人数最多,占冠心病住院患者总数的21.9%,其中合并心力衰竭III-IV级的住院患者占心力衰竭患者总数的85%,此结果表明,研究心力衰竭的危险因素在提高患者的生存质量及生存率方面有较强的必要性。因此本研究通过多种研究方法(决策树、关联规则等)对冠心病并发心力衰竭的患者的危险因素进行研究。2.冠心病合并心力衰竭的危险因素分析本研究对冠心病合并心力衰竭患者的数据挖掘前应用主成分分析对数据进行降维,简化数据,有利于下一步的分析,得出37个属性包括:身高、尿素氮、淋巴细胞比例、尿蛋白、血清总蛋白、天门冬氨酸转氨酶、低密度脂蛋白、尿葡萄糖、乙肝表面抗原、乙肝核心抗体、乙肝表面抗体、本次呼吸道感染、尿比重、直接胆红素、间接胆红素、氯测定、r-谷氨酰转肽酶、嗜酸性粒细胞比例、红细胞计数、血小板、新近发生的脑梗塞病史、冠心病史、高血压病史、血脂载脂蛋白AI、单核细胞比例、谷丙/谷草转氨酶比值、高密度脂蛋白、尿亚硝酸盐、嗜碱性粒细胞比例、尿胆红素、尿酮体、尿白细胞、钠测定、饮酒、糖尿病史、脑梗塞病史、胆固醇。对以上变量分别进行了决策树的数据挖掘分析及Logistic线性回归分析,结果表明感染、高血压病史、既往脑梗塞病史、血脂异常、尿素氮及身高等5个因素与冠心病合并心力衰竭的患者关联较强。并对以上37个属性进行Apriori算法的关联规则分析,结果显示高密度脂蛋白与尿胆红素呈正相关。3.冠心病合并心力衰竭危险因素两种研究算法的比较本文主要研究基于Weka软件工具的决策树算法(J48算法)与Logistic回归算法的比较,结果显示J48算法模型的特异性为91.49%,敏感性为32.98.%,ROC曲线下面积为0.6689,准确度为78.487%,运行时间为0.02秒。Logistic线性回归预测模型的特异性为99%,敏感性为25.53%,ROC曲线下面积为0.6898,准确度为75.650%,运行时间为0.03秒。结论:1.冠心病患者中合并心力衰竭的患者占21.9%,其中心功能III-IV级患者占85%,提高患者的生存质量及生存率非常必要。2.上呼吸道及肺部感染、脑梗塞病史、尿素氮、血脂异常、身高、高血压是冠心病合并心力衰竭的危险因素。3.决策树算法(J48算法)较Logistic回归算法更适合冠心病合并心力衰竭危险因素的探测。4.冠心病患者中高密度脂蛋白胆固醇与尿胆红素呈正相关。