基于C4.5算法的高血压分类规则提取的研究

被引量 : 13次 | 上传用户:slwbljcx
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
高血压作为一种严重影响人类健康的慢性病,其患病率在全球范围内日趋上升,高血压病人的治疗率和知晓率却处于较低水平。目前关于高血压的预防和治疗也引起了世界卫生组织和全球范围内医学及其他领域学者的关注。随着医疗行业的信息化管理的发展,越来越多的高血压临床数据被存储在医疗数据库中。目前亟待解决的问题就是如何从大量的历史临床数据中发现有价值的信息为今后的疾病诊断和预测做出贡献。为了解决该问题,近些年的很多学者都将数据挖掘技术应用到医学领域中,医学数据挖掘也是目前的研究热点之一。本文尝试用数据挖掘算法从大量的临床高血压病人数据中学习高血压的发病规律和影响高血压的主要因素,提取出高血压的分类规则。由于挖掘任务具有明显的分类性,本文首先着重对典型的分类算法及其在医学上的应用做了学习和比较。根据挖掘数据的连续型的特点和决策树模型的优势,选择C4.5算法从大量的高血压病数据中提取出分类规则。然后,本文将高血压病人的临床数据录入到数据中,这些数据包括高血压病人的电子病历、实验室检查属性数据和电子处方。但这些原始数据存在不同程度的不完整性、噪声和不一致性,随后采用数据清理、变换、集成等预处理技术对原始数据进行了处理,最后选择和挖掘主题相关的属性得出统一视图。在对C4.5算法的工作原理和评估分类结果的方法给出详细的描述后,本文使用C4.5算法对预处理后的高血压数据进行分析,构造出决策树模型,然后提取出易于理解的分类规则,并采用保持方法测试分类结果的准确率。实验结果证明了C4.5算法对高血压分类规则提取的适用性。最后针对C4.5算法在属性选择方面的不足之处,本文引入了相关度的概念,对C4.5算法的程序做出了修改,对所选属性的信息增益进行修正,相对改变该属性对决策的支持度。改进的C4.5算法对同一训练集构建的决策树模型更加符合医学上的认识,其准确率也相应的得到提高,证明了改进算法的有效性。本文对高血压分类规则的提取,旨在寻找影响高血压的实验室检查属性及其危险水平,从而辅助医师或者病人对高血压的预防和诊断工作。
其他文献
校长领导力作为校长整体能力中的重要组成部分,对学校的发展和教师的成长具有十分重要的影响,并且校长的领导力与学校绩效紧密相关。随着近年来高职院校竞争的逐渐激烈,高职
播州之称始于唐贞观十三年(639年),由郎州易名而来,属黔中道的经制州(正州)。大历五年(770年),泸州僚族(今仡佬族先民)首领罗荣占据播州,开始对播州这块土地实行世袭统治,播
陕西师范大学文学院名誉院长、教授、博士生导师霍松林先生,是我国著名文艺理论家、古典文学研究专家、诗人、书法家。霍先生1921年出生于甘肃天水,幼时熟读诗书,被誉为“神
期刊
如果从学术论文写作的角度去探讨《菊与刀》,其写作的现实意义在于为当局政策提供理论指导,理论意义则在于以人类文化学的视角建构有关日本文化的理论体系。作者驾驭《菊与刀
从MOOC发展的动态来看,Coursera、中国大学MOOC、清华学堂在线等都在向SPOC转型,试图通过(在线课程)内容授权和在线课堂(Online Classroom)租赁的方式,寻找盈利模式。以SPOC
歌唱在小学音乐教学中是一项重要的内容。为此,相关教学标准中提出了要进一步重视演唱时的姿势、节奏和呼吸方法的要求。同时,伴随着新课标的逐步深入,歌唱教学在小学音乐教
随着经济的发展和互联网技术的不断成熟,全世界的人们越来越倾向于网上购物这种便捷的交易方式,电子商务的发展已经成为时代发展的趋势和必然产物。在中国,网络购物市场和交易规
<正>处州为丽水古称,隋开皇九年(589年)置县,地处浙江西南,素有"九山半水半分田"之称。悠久的历史和独特的地域环境使这里大量珍贵的廊桥保存下来。据不完全统计,丽水境内现
<正>阿那曲唑是由英国Zeneca公司开发的第三代芳香化酶抑制剂,于1996年上市。基础研究及早期临床试验表明该药具有强效、高选择性、耐受性好的特点。在国外阿那曲唑已被广泛
本文运用文献研究与个案研究等定性研究方法,借助于理性选择理论、冲突理论、博奕论和文化认同理论,对深港跨境学童群体产生的历史背景、发展历程与现状、跨境学童成长及面临