论文部分内容阅读
高血压作为一种严重影响人类健康的慢性病,其患病率在全球范围内日趋上升,高血压病人的治疗率和知晓率却处于较低水平。目前关于高血压的预防和治疗也引起了世界卫生组织和全球范围内医学及其他领域学者的关注。随着医疗行业的信息化管理的发展,越来越多的高血压临床数据被存储在医疗数据库中。目前亟待解决的问题就是如何从大量的历史临床数据中发现有价值的信息为今后的疾病诊断和预测做出贡献。为了解决该问题,近些年的很多学者都将数据挖掘技术应用到医学领域中,医学数据挖掘也是目前的研究热点之一。本文尝试用数据挖掘算法从大量的临床高血压病人数据中学习高血压的发病规律和影响高血压的主要因素,提取出高血压的分类规则。由于挖掘任务具有明显的分类性,本文首先着重对典型的分类算法及其在医学上的应用做了学习和比较。根据挖掘数据的连续型的特点和决策树模型的优势,选择C4.5算法从大量的高血压病数据中提取出分类规则。然后,本文将高血压病人的临床数据录入到数据中,这些数据包括高血压病人的电子病历、实验室检查属性数据和电子处方。但这些原始数据存在不同程度的不完整性、噪声和不一致性,随后采用数据清理、变换、集成等预处理技术对原始数据进行了处理,最后选择和挖掘主题相关的属性得出统一视图。在对C4.5算法的工作原理和评估分类结果的方法给出详细的描述后,本文使用C4.5算法对预处理后的高血压数据进行分析,构造出决策树模型,然后提取出易于理解的分类规则,并采用保持方法测试分类结果的准确率。实验结果证明了C4.5算法对高血压分类规则提取的适用性。最后针对C4.5算法在属性选择方面的不足之处,本文引入了相关度的概念,对C4.5算法的程序做出了修改,对所选属性的信息增益进行修正,相对改变该属性对决策的支持度。改进的C4.5算法对同一训练集构建的决策树模型更加符合医学上的认识,其准确率也相应的得到提高,证明了改进算法的有效性。本文对高血压分类规则的提取,旨在寻找影响高血压的实验室检查属性及其危险水平,从而辅助医师或者病人对高血压的预防和诊断工作。