基于代价敏感性随机森林与支持向量机的肝硬化并发肝性脑病风险预测模型研究

来源 :山西医科大学 | 被引量 : 6次 | 上传用户:zkk81950868
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
目的:  肝性脑病是肝硬化最常见的并发症之一,临床表现复杂多变、治愈率低、预后差,已成为导致肝硬化患者生存率低的重要原因,因此针对肝硬化患者构建肝性脑病风险预测模型显得极为重要。同时,肝硬化并发肝性脑病数据具有类别非均衡的特征,传统统计学方法与机器学习算法存在着无法有效识别少数类,预测性能欠佳的问题。因此,本课题针对上述问题,采用基于代价敏感的随机森林与支持向量机算法构建肝硬化并发肝性脑病风险预测模型,以提高对肝硬化并发肝性脑病的预测效能,为临床医生识别肝性脑病高危人群,选择合理的治疗措施提供依据,为其他疾病风险预测研究提供方法学借鉴。  方法:  采用2010年1月至2017年4月山西医科大学第二附属医院消化内科确诊为肝硬化住院患者的病历资料,按照纳入排除标准整理数据资料后获得1256例有效数据。利用单因素分析及基于随机森林的受试者工作特征曲线下面积算法(The area under the receiver operating characteristic curve of the random forest,AUC-RF)的自变量筛选方法选出与肝硬化并发肝性脑病相关的因素。然后以筛选出的变量作为输入变量,是否并发肝性脑病作为结局变量,构建Logistic回归、加权随机森林(Weighted Random Forest, WRF)和基于代价敏感的支持向量机(Cost Sensitive Support Vector Machine,CS-SVM)分类预测模型,探讨其分类预测性能,同时与传统随机森林、支持向量机分类预测模型的识别能力进行比较。最后,采用Logistic回归与WRF算法实现对肝硬化患者并发肝性脑病的概率预测。  结果:  1、通过单因素检验与基于AUC-RF自变量筛选方法,筛选出与肝硬化并发肝性脑病相关的20个变量,分别为:便秘、浮肿、电解质紊乱、上消化道出血、感染、利尿剂、白细胞、红细胞、血红蛋白、中性粒细胞百分比、谷草转氨酶、钠、氯、白蛋白、总蛋白、直接胆红素、间接胆红素、凝血酶原时间、纤维蛋白原和活化部分凝血活酶时间。将其作为输入变量引入到Logistic回归、WRF和CS-SVM算法,构建出肝硬化并发肝性脑病风险预测模型。  2、分类模型预测性能评价:Logistic回归分类预测模型评价指标的中位数分别为:灵敏度70.00%,特异度83.38%,准确度82.54%,G-means 0.7679,F-measure 0.3688, AUC值0.7721;WRF的分类预测模型评价指标中位数分别为:灵敏度70.00%,特异度85.82%,准确度84.69%,G-means 0.7739,F-measure 0.3930,AUC值0.7778;CS-SVM分类预测模型评价指标中位数分别为:灵敏度71.66%,特异度82.99%,准确度82.06%, G-means 0.7657,F-measure 0.3560,AUC值0.7688。  3、分类模型预测性能比较:在同一数据集上构建上述三种模型及传统随机森林、支持向量机分类预测模型,比较各指标显示:WRF、CS-SVM与Logistic回归模型对并发肝性脑病患者的识别能力高于传统机器学习模型(灵敏度高于70.00%),对未并发肝性脑病患者的识别能力略低于传统模型(特异度约为85.00%),模型综合评价指标高于其他模型(G-means高于0.8000,F-measure高于0.4000)。WRF的三个指标Gmeans(0.8221)、F-measure(0.4646)以及AUC(0.8241)均优于Logistic回归与CS-SVM模型。  4、概率预测模型:WRF不仅可用于构建肝硬化并发肝性脑病分类预测模型,同时也可较好地预测患者发病概率。  结论:  基于代价敏感的随机森林与支持向量机算法可以弥补传统机器学习在非均衡数据分类问题中的不足,提高模型对于此类数据的分类预测性能。在进行肝硬化并发肝性脑病分类预测时,基于代价敏感的随机森林与支持向量机算法的预测性能高于其他模型,而且加权随机森林可提供患者的发病概率,使得肝性脑病发生概率的估计更为直观与高效。本文采用WRF与CS-SVM建立的分类与概率预测模型可帮助临床医生识别肝性脑病高危患者,对延长肝性脑病患者的生存期,提高其生存质量具有重要的现实意义。
其他文献
摘 要:近几年来,我国电力行业发展迅速,所应用的技术和装备越来越先进,其中200MW机组应用较广,并逐漸向集控运行方式转变。这对机组运行提出了更高的要求。本文介绍了火电集控运行系统,分析了其存在的弊端,并针对问题提出了具体的解决措施。  关键词:火电厂;200MW机组;集控运行  0 引言  随着我国发电厂应用了集中控制运行(简称集控)系统,不仅提高了火电厂的运行质量,还提高了运行效率。但是从发电
本文旨在将健康促进学校理论运用到初中生控烟中,探索一种以学校为基础的预防和控制青少年吸烟的新模式,同时也为广州市健康促进学校的推广实施提供科学证据。 研究对象与方
摘 要:电力资源已经成为人们日常生活中不可缺少的一部分。本文将针对如何做好电力工程的装表接电工作进行合理的分析,研究加强电力工程装表接电的方式和方法,从接电装表过程中分析总结相关工作经验。  关键词:电力;装表接电;问题  1 装表工作的基本意义  装表接电工作是实现电力资源的具体安装和接电,不是简单的服务性工作,而是需要细致耐心的技术性工作。装表接电过程中需要对实际的电力使用情况进行全程跟踪分析
摘 要:如今,国家正在加强电网安全体系建设,降低电网系统运行中的风险性,明确变电站值班员的工作职责,严格按照工程程序开展工作,保证变电站电网系统的正常运行。随着社会的快速发展,信息技术也得到迅猛发展,并已广泛应用于变电站值班工作中,改变了传统的值班模式,转为无人值班模式,这也在一定程度上加大了倒闸操作的难度。因此,变电站必须加强值班员培训,让值班员可以熟练操作信息设备,提高倒闸操作的规范性。  关
中国的文学长河可谓是浩渺无边,对于文章情感的理解,学生也不是很容易就能感悟出来的。刘国正先牛在《我的语文工具观》一文中指出“获得语言的技能,主要依靠语占的实践,对理论知
目的:自1997年社区卫生服务在全国范围内正式启动以来,通过近十年的建设,社区卫生服务在我国特别在城市得到了长足的发展,城市卫生服务体系随之进行着调整与重构,卫生资源需重新分