基于C4.5算法的数据挖掘应用研究

被引量 : 0次 | 上传用户:long060112
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
近几十年来,数据库技术和海量存储器等硬件的快速发展使得人们收集数据的能力得到进一步的提高。面对信息时代海量数据的出现,如何有效地利用大量的原始数据分析现状以预测未来,已经成为人类面临的一大挑战。由此,数据挖掘技术应运而生并得以迅猛发展。目前,数据挖掘已经成为一个研究热点,数据挖掘所得到的知识能够为决策支持提供依据。Ⅱ型糖尿病患病率在全球范围内呈上升趋势,其隐匿起病、患病率随年龄增大而增加等特点表明这一疾病发展为渐进型疾病。针对这一疾病发生发展的规律,本文尝试用数据挖掘算法来发现规律,将数据挖掘算法引入Ⅱ型糖尿病的发病规律研究中,希望从大量的数据中学习Ⅱ型糖尿病的发病规律,挖掘出需要的数据和规则,构造糖尿病的分类和预侧系统。本文的原始数据来源于对患者的临床检验报告。临床检验报告的内容经过适当的转换存入数据库中作为原始数据。针对这些数据的不完整性、有噪声性和不一致性,本文用数据清理、数据变换、数据归约等数据挖掘的预处理技术处理这些原始数据。本文数据挖掘的任务是从众多的糖尿病数据中挖掘出致病规律,为糖尿病的预防,诊断和预测构造决策系统。由挖掘任务的分类性和对挖掘算法的要求,本文选用了决策树方法来进行数据挖掘。同时,由于糖尿病数据的连续性,选用了决策树方法中的C4.5算法作为数据挖掘算法。在实现C4.5算法的基础上,本文在糖尿病数据上进行了发病规律的学习和规则提取,在预处理过的数据的基础上生成了一组糖尿病的诊断与预测规则。并用分类法的保持评判方法评判其正确率。针对上述决策树对患病人群的正确率不够理想的情况,提出了以训练集的比例因子变量为参数,试验了患病人群的正确率和正确率均值随比例因子变量的变化关系给出了一个经过改进的分类器和判定患病人群的解决方案。
其他文献
本文从高句丽墓室壁画的社会背景、表现语言以及表现内容等方面的装饰特色入手来论述高句丽壁画的起源及其独特的民族装饰风格。首先,以高句丽墓室壁画产生的社会背景作为切
中国大众文化萌动于20世纪80年代初,经过短短不到30年的发展,已然成为中国当下多元文化并存格局中一个主要的文化形态。1990年代大众文化获得了迅速发展,由于本土大众文化批
化学学科思想是化学学科的灵魂,是学习和认识化学学科的指导思想。本文从物质运动、物质守恒、物质分类、动态平衡、建构模型、对立统一、内在联系、质量互变、一般与特殊、
产业用经编针织物作为重要的纺织品类型之一,以其可设计性强和应用领域广泛等特点,极具发展潜力,逐渐成为产业用纺织品行业创新发展的主要方向。文章从应用特点与优势等方面,
班主任冲动时批评教育学生的语言很容易充当以下负面"角色":随意讽刺的"便利武器",清算旧账的"常用工具",盲目指责的"得意方式",大肆训斥的"精神棍棒",转嫁责任的"丑恶帮凶",
目的分析腹腔镜下子宫肌瘤手术对人体氧化应激及肿瘤组织中基质金属蛋白酶(MMPs)表达的影响。方法选择在该院接受手术治疗的子宫肌瘤患者作为研究对象,随机分为接受开腹手术
<正>现代教学理论认为:教学过程既是学生在教师指导下的认知过程,又是学生能力的发展过程。因此教师要彻底摒弃和摆脱传统的"填鸭式"教学,把主要精力放在为学生创设学习情境
随着信息技术和网络技术的高速发展及人们居住理念的变化与提升,人们越来越追求生活细节的简单化和智能化,希望在日常家居生活中都能置入智能化程序,享受“一键OK”式的简单
《封神演义》是诞生在明代的一部非常优秀的神魔小说,但是历来学者对其总体评价都不是很高,即使对小说持积极肯定态度的学者,也只有少数文章能结合文本进行全面、细致、深入
目的探讨关节镜下囊肿切除局部关节内过线缝合技术治疗半月板前角囊肿的临床疗效。方法 2008年9月~2012年1月,14例患者,15侧前角囊肿的半月板用囊肿切除局部关节内过线缝合技