决策树生成系统

被引量 : 7次 | 上传用户:descendant_of_shang
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
分类是数据挖掘领域中的一个重要研究课题。在分类的过程中,首先给定一个包含多条记录的训练集,每条记录都包含多个属性,其中一个属性标明每条记录属于哪一类,我们称之为类标号。分类的目的就是建立一个以类标号属性除外的其它属性为判定条件的模型,通过这个模型可以对以后未知类标号的记录进行正确分类。决策树方法是分类中最常用的工具之一。它是一个类似于流程图的树状模型,其中每个内部节点表示一个属性测试,每个分枝代表一个测试输出,而每个树叶节点代表“类”或“类分布”。通过决策树模型对一条记录进行分类就是通过按照模型中属性测试结果从根到叶找到一条路径,最后叶节点的类标号就是该记录的分类结果。 本课题研究的内容是建立一个完整的决策树生成系统。它包括数据预处理、决策树的生成、决策树剪枝、分析和评估、生成分类规则五个部分。数据预处理中主要包括数据清洗(减少噪声或处理丢失的值)、相关分析(删除不相关或冗余属性)太原理工大学硕士学位论文决策树生成系统和数据变换(如概化数据到较高的概念层,或对数据规范化)等内容。决策树生成则是按照某种属性评价方法递归地对各个属性进行评价,找到最优的分割条件,生成一棵完全生长的决策树。在这个阶段我们采用了信息增益法、Gini索引法和Relief算法三种属性评价方法,并在实验结果部分对三者的性能进行了比较。决策树剪枝则是为了防止在决策树生成阶段生成的决策树中存在的“过适应”问题和提高决策树的分类准确率,对生成的决策树按照一定的方法进行剪枝。在此我们实现了最小描述长度法(MDL),因为该算法在准确率、剪枝后决策树的大小和运行速度方面都有很大的优势。决策树分析和评估阶段主要是对生成的决策树的各方面的性能进行评估。本系统实现的是保持法和10折交叉确认法,主要是对生成的决策树模型进行准确率方面的评估。在生成规则阶段主要是将决策树转化为比较直观的工F一THEN规则形式,让用户能更好地理解分类结果。 从实验结果中我们可以看到:信息增益法和Gini算法相比,无论是在生成节点数还是在运行速度上都比较相似,二者的分类速度都要快于Rehef算法,但Rehef算法在某些特定的数据库上生成的结果要明显优于前两者。并且我们在税务信息太原理工大学硕士学位论文决策树生成系统系统中的数据上应用该系统也取得了比较满意的分类结果。但是我们研究的目的是生成一个紧凑的,高准确率的、易于理解和具有可伸缩性的决策树系统,本系统在运行效率、与数据仓库集成、对复杂数据进行分析等方面还存在许多不足之处,我们将会在以后的工作中做进一步的改进。
其他文献
录囚制度源远流长,代有传承损益.其功能有三:一曰平反冤狱;一曰清理滞狱;一曰赦降放遣.世易时移,沧海桑田,录囚制度仍可为改善我国刑事审判监督程序之龟镜.
<正>一、我国地方政府举债体制的变化现阶段我国地方政府融资举债还属于社会主义市场体制下经济发展和转型期中的政府举债体制,近两年政策更是不断调整完善,存在变化大、变化
目的研究分娩球配合自由体位对分娩第一产程的临床效果。方法选择特定研究时段(2016年12月~2017年5月)内我院产科接收的120例产妇,按随机分类法分为观察组和对照组。每组60例
社会主义核心价值观是维护社会秩序的思想基础和精神纽带,十八大提出的"24字核心价值观"涵盖了国家、社会、个人三个层面,体现了政治理想、社会导向、行为准则的统一。它反映
目的 观察“罗氏促排卵汤加减”对肾虚型无排卵性不孕症卵巢动脉血流动力学的影响 ,从“妇人以血为本”的角度探讨肾虚型无排卵性不孕症的发病机理和“罗氏促排卵汤加减”的
<正>一1919年4月底,在巴黎和会上,在帝国主义列强操纵下,对德和约明文约定把战败国德国在山东的原有权益转让给日本。4月30日,著名爱国人士林长民在北京接到了梁启超从巴黎发
推进社区民主自治,是有效整合基层社会管理资源、健全社会管理格局的一项基础性工程。近几年来,珠海以加快社区民主自治建设为突破口,积极推进社会管理体制改革先行先试,初步探索
凯特&#183;肖班(1850-1904)是十九世纪末活跃于美国文坛的著名小说家、诗人和评论家。她的代表作《觉醒》因其强烈的女性主义意识被推崇为美国女性文学的扛鼎之作,跻身美国文
从大教育观念看,现代教育应该是社会、学校、家长共同实施的一项系统性教育工程。社区是孩子走出家门,踏入社会的第一步。社区家庭教育是对孩子实施全面素质教育的重要构成。
近日,辰山植物园(中科院上海辰山植物科研中心)能源植物生物技术研究组的甘薯抗逆境分子育种研究取得新突破,甘薯主栽品种苏薯2号中表达菠菜甜菜碱醛脱氢酶基因通过了上海木