论文部分内容阅读
在当今计算机技术高速发展的信息时代,工商部门各种相关的业务信息数据日益扩大并迅速膨胀。目前,工商部门所采集的企业数据资料分散,数据集中性和信息整合程度较低,这种现状已经逐渐不能适应工商部门新形势下的数据分析以及工商管理决策的需要。尤其在对企业信用等级分类的监管工作中,海量的数据迫切需要数据挖掘技术的支持,用以提高工商部门的数据分析能力以及决策能力,更好地指导工商部门的业务工作,更好地服务地方经济。要实现工商系统企业信用等级分类管理,首先要解决的问题就是充分利用现有的企业信息和相关数据,为各级工商部门、管理人员以及和相关企事业单位提供相关数据的查询、数据分析等。本文研究的命题就是针对这种问题产生的,本文在探讨工商系统企业信用等级分类管理过程中存在的问题基础上,结合本人的工作实践提出了在工商系统企业信用等级分类监管中运用数据挖掘技术的方案。C4.5算法是数据挖掘的一个经典的决策树分类算法,它选择信息增益率最大的属性作为测试属性,但C4.5算法产生的决策树往往具有更多的叶子节点(碎片)。本文给出了一个改进算法R-C4.5算法,它在分枝过程中,合并信息熵值较高的部分分枝,从而有效避免了碎片问题。本文首先概述了我国目前工商部门的信息化发展进程,企业相关数据信息的整合以及利用的现状,继而以淮南市工商业务管理系统中的部分数据作为研究对象,运用数据挖掘的关联规则尝试对企业的信用等级管理中的各个组成部分之间的相互依赖关系进行挖掘,运用分类技术来探讨影响企业信用等级评定的主要因素,使用C4.5决策树算法和改进的R-C4.5决策树算法分别生成决策树,最后由决策树产生分类规则。通过研究寻找其中有价值的关系和规律,对企业的信用等级分类、企业的监督管理等实际工作能够起到辅助作用,并且提供一定的决策支持。