论文部分内容阅读
在我国60岁以上人群中颈动脉硬化的发病率高达70%以上,患病年龄也已从60岁提前至45岁,严重威胁着中老年人身体健康。目前对该疾病的诊断主要是通过医生人工完成,不仅工作效率低下,而且大量高维的数据人脑很难分析。针对这些问题,论文使用数据挖掘工具Weka对来自西安唐都医院的311例颈动脉硬化患者电子病历中的血流动力学信息数据集,分别使用分类算法中经典的BP(Back Propagation)算法、C4.5算法与支持向量机建立颈动脉硬化斑块诊断分类器,对比分析得出性能最优的是支持向量机分类器。并通过进一步的集成优化,使得该支持向量机分类器性能得到了较大提高,进而帮助医生对颈动脉硬化斑块做出科学的诊断决策。以下是论文研究分析的主要内容: 1)充分理解颈动脉硬化斑块临床诊断指标。通过分析可知颈动脉的血流动力学信息与颈动脉硬化斑块的形成有着密切关系,提取该部分数据并将血流动力学信息的所有属性作为此次数据挖掘的主要研究对象。 2)对颈动脉血流动力学信息数据集进行数据预处理。首先,将数据格式调整为ARFF(Attribute Relation File Format)文件格式;其次,将血流动力学信息中的所有属性根据数据挖掘算法的不同需求进行规范化;最后,使用不同属性选择方法对无关属性进行过滤,筛选出最为相关的属性子集建立分类器。 3)分别使用BP算法、C4.5算法以及支持向量机算法建立颈动脉硬化斑块诊断分类器。每种算法建模时都有自己的参数,因此使用不同的参数选择方法进行选择,选择时的原则是选取一定范围内能使所建分类器准确率最优的参数组合并使用这一组合建模。 4)评估三个诊断模型并选择其中性能最优的支持向量机诊断模型进一步优化。分别对BP分类器、C4.5分类器与支持向量机分类器从建模时间、可解释性、误差与成本四个方面进行对比分析并选择三者之中性能最好的,通过评估结果可知性能最优的是支持向量机分类器,但仍有进步空间,因此利用集成学习中的Adaboost算法对其进行优化。 通过实验得到了与颈动脉硬化斑块形成最为相关的血流动力学属性,并且在所建立的三种颈动脉硬化斑块分类器中性能最优的是支持向量机分类器。在对此支持向量机分类器进行集成优化后该诊断型分类器的性能得到了较大提高,最终的分类准确率为75.5%,优化后的分类器有助于医生对颈动脉硬化斑块做出科学的诊断决策,虽然实际诊断中不能仅凭血流动力学信息做出定论性的诊断预测但它对诊断结果的影响也是不容忽视的。