【摘 要】
:
近年来,数据挖掘引起了信息产业界和整个社会的极大关注,其主要原因是存在可以广泛使用的大量数据,并且迫切需要将这些数据转换成有用的信息和知识。获取的信息和知识可以广
论文部分内容阅读
近年来,数据挖掘引起了信息产业界和整个社会的极大关注,其主要原因是存在可以广泛使用的大量数据,并且迫切需要将这些数据转换成有用的信息和知识。获取的信息和知识可以广泛用于各种应用,如市场分析、顾客保有、科学探索等。其中数据分类是数据挖掘领域研究的重要课题。目前用于分类的方法有很多种,其中决策树分类方法以其算法理论清晰、易被理解以及容易转换成分类规则等优点被广泛研究与应用。本文以“学生成绩管理系统”为研究背景,目的是研究如何将数据挖掘技术与现有的数据库系统相结合,从大量的数据中提取出隐藏在数据之中的有用信息,为学校的管理者提供综合分析。通过对数据挖掘基本原理、基本算法的研究开发了基于决策树算法的高考成绩预测分析模块。以改进的决策树C4.5算法为基础,根据学生成绩数据库中的信息建立一个决策树成绩预测模型,对学生高考成绩进行综合分析预测。通过对几种典型的决策树算法进行分析比较,本文提出了改进的C4.5算法。该算法是将高等数学中的一些原理与C4.5算法相结合,对算法中的信息熵及分裂信息量公式进行化简,以达到提高算法运行效率的目的。最后利用程序分别实现改进前后的C4.5算法并进行对比实验,经过理论分析和实验结果表明,改进后的C4.5算法提高了决策树的构建速度,减少了算法的运行时间。本文提出的改进算法改善了原始决策树C4.5算法的性能,表现出了良好的分类效果。
其他文献
大学生作为文化层次较高的群体,他们人格是否健全,对于国家未来的发展起着举足轻重的作用。健全人格的塑造,既是当代大学生个人身心健康的需要,更是人格心灵的唤醒,更重要的
<正>刚刚粉碎"四人帮"时,以阶级斗争为纲的思想还占据上风,小平同志为什么会提出以经济建设为中心的伟大构想?我想这一定得益于他和谐的家庭生活,让他意识到国家和家庭一样都
<正> 从明治维新到第二次世界大战结束,日本大约走过了一个世纪军国主义和侵略战争的道路。可以说,日本的国家近代化是与其军事化同时并进的。对外侵略战争和国民经济的军事
为了有力地证明介入的绩效,社会工作者不能使用模糊、主观或者非正式的评估方法;个案研究和经典小组设计法也因各自的缺点而遭淘汰。目前流行的评估方法是单样本设计,这种方
我国是一个用电及发电大国。其中水电行业居世界第一,同时我国水资源丰富,因此发展大型水电站的情况比较乐观,投资和融资的规模比较大。但是,近年来,我国水电行业的融资情况
随着城镇化进程的不断推进、房地产市场化改革的逐步深入和西部大开发战略的稳步实施,近些年来中国西部地区的房地产业得到了迅速发展,商品房价格也呈现出快速上涨的态势。商
民族地区拥有丰富的特色浓郁的文化资源,随着我国文化产业进入了快速发展的时期,民族地区文化产业也得到了一定的发展。但是文化产业在民族地区的发展也存在着一些问题,这些
<正>卵巢癌是病死率最高的妇科恶性肿瘤。流行病学研究发现,至少10%的卵巢癌表现为家族遗传倾向,与某些遗传基因突变有关,属于遗传性卵巢癌综合征[1]。遗传性乳腺癌卵巢癌综
蛋白质和氨基酸在维持生物体结构和代谢中起着重要的作用。对于鱼类来说,鱼体组成成分(干物质)中50%以上都是蛋白质。饲料中蛋白源的数量和质量关系到鱼体是否能够达到最大生
幼儿园教师队伍及其素质是教育质量的决定性因素,占据七成多的民办幼儿园教师的质量对我国学前教育事业的可持续发展提出了巨大的挑战。当前民办幼儿园教师队伍存在着数量不