论文部分内容阅读
阻塞性睡眠呼吸暂停低通气综合征(OSAHS)是由于上呼吸道发生病变诱发的睡眠呼吸疾病,患者各系统功能会造成不同程度的损害,易诱发全身性疾病。研究表明:高血压与OSAHS发病关系密切,高血压患者中OSAHS的发病率显著升高。高血压合并OSAHS患者在诊治过程中,患者的OSAHS病症易被漏诊,耽误患者治疗。OSAHS疾病的诊治耗时长、费用高;近年来,虽有不少研究者使用统计学方法构建OSAHS患者筛查模型,但研究者提出现有的患者筛查模型存在精确度、特异弱、敏感性低的问题。为提高高血压患者中OSAHS筛查模型的准确率,减少高血压患者中OSAHS病症的漏诊现象,寻找高血压诱发OSAHS疾病的发病机制,本研究利用机器学习的方法对收集到的云南省第一人民医院呼吸睡眠中心的398例高血压患者数据集构建高血压患者中OSAHS筛查模型。由于收集到的数据集存在类间样本不平衡,特征冗余、不相关等问题,在构建筛查模型前,需要对数据集进行预处理。针对收集到的高血压患者数据集类间样本数量不平衡问题,本研究提出了一种改进的Borderline-Smote不平衡数据处理算法。使用改进的Borderline-Smote算法在对数据集进行类间样本平衡处理过程中,通过对数据集中少数类样本细粒度划分,寻找到少数类中危险数据样本,然后使用危险数据样本集生成新的少数类样本,实现数据集类间样本平衡。高血压患者数据集由原来的总数据量398例,其中单纯高血压患者364例,高血压合并OSAHS患者34例,平衡为总数据量697例,其中单纯高血压患者364例,高血压合并OSAHS患者333例的高血压患者数据集。为了验证本研究提出改进的Borderline-Smote算法的正确性、有效性,分别将该算法与Borderline-smote1算法、Borderline-smote2算法及GSVM传统的不平衡数据处理方法在同一数据集上进行性能对比,通过Accuracy、Precious、Recall值及F1值评价指标结果显示:改进的Borderline-Smote算法在处理不平衡数据集时性能明显优于原始的Borderline-smote1、Borderline-smote2算法及GSVM不平衡数据处理方法。第二:针对高血压患者数据集中存在特征冗余、不相关等问题,本研究提出了MRMR-SVM-RFE特征选择算法。该算法在进行特征选择时,将最小冗余最大相关特征选择算法(MRMR)与SVM-RFE算法相结合,有效剔除数据集中冗余、不相关特征。第三:通过分析本研究数据集特征,对数据预处理后数据集使用深度森林模型中级联森林构建高血压合并OSAHS患者筛查模型,并分别在SVM、朴素贝叶斯、决策树、感知神经网络模型上使用Accuracy、Precious、Recall、F1值对模型性能进行对比评估,结果显示:本研究构建的高血压合并OSAHS患者筛查模型具有正确性、有效性;并且本研究中构建的高血压合并OSAHS患者筛查模型性能明显优于使用的其他分类算法构建的筛查模型。