数据挖掘中决策分类的研究与实现

来源 :中山大学 | 被引量 : 0次 | 上传用户:shiyilang7879
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
  数据库内容丰富,蕴藏大量信息,可以用来作出智能的商务决策。分类是一种数据分析形式,可以用于提取描述重要数据类的模型和预测未来的数据趋势。分类是一个两步过程。第一步,根据已知的数据集建立预测模型。第二步,使用模型进行分类。例如,可以建立一个模型对出海打鱼的安全和风险进行分类。分类方法已经被应用在专家系统、机器学习和决策支持等方面。   本文在深入研究决策分类方法之后,针对决策分类方法中比较成熟和应用广泛的ID3算法,提出了分类有效度决策树的模型和ED算法。ID3算法在选择分类属性时采用的度量标准是信息增益。ID3算法存在内在偏置的问题,会偏袒具有较多值的属性。具有较多值的属性把训练样本分割成非常小的空间。因此,相对训练样本,生成的决策树非常宽,尽管它完美地分割了训练数据,但是对于后来的数据的预测性能会比较差,所以它不是一个好的预测器。   本文对ID3算法和信息增益标准作了深入的研究,针对ID3算法内在偏置的缺陷,提出了分类有效度作为选择分类属性的衡量标准,有效地考虑了每一个属性和类标号的相关性和数据划分的距离,成功地解决了信息增益度量标准的内在偏置的问题。
其他文献
入侵检测系统是计算机网络安全的重要组成部分,它实现对入侵信息实时检测的功能。入侵检测系统一般采用基于网络的,采用误用检测技术的。采用误用检测技术的优点是精确;但它的主
信息化浪潮正深刻、全面地影响着我国经济发展的各个领域,对出版行业也不例外。出版业作为意识形态领域一直受到国家的重点保护,信息化建设薄弱。加入WTO后,在经济全球化、信息
  随着信息的爆炸性增长,对计算机的存储能力提出了更高的要求。海量信息的存储带来了另一个问题,信息怎么进行有效的处理。这就对计算机的计算能力提出更高的要求。使用单一
本文的主要研究内容有:对当前已经提出的各种索引技术进行了分析研究,首先给出了一个XML文档树数据模型的形式化定义。讨论了XML编码方法的研究和应用概况,并分析了当前比较流
关联规则挖掘是数据挖掘中的一个重要研究课题。它是搜索强相关的项集合的一个过程。挖掘一个超市数据库, 可以找到不同商品之间的销售联系(它反映了顾客的消费行为),例如:面
网络管理是计算机网络中一种非常重要的技术,它包括性能管理、配置管理、故障管理、计费管理和安全管理等五大功能。IP网络管理系统必须能有效地管理网络中不同的计算机系统
随着计算机技术及Internet的发展,网络规模的扩大,网络应用的不断增加,建立完善的网络管理系统保证计算机网络高效、稳定地运行显得非常重要。故障管理是网络管理的核心,而故障诊
中国在电子政务的建设过程中,为实现政府从单纯的管理职能向服务职能的转变,需要解决的问题之一就是建立为广大用户提供跨时间、空间的电子申请系统。如何快速的建立标准的电子
  交换机在第二层即MAC层必须具有转发功能。目前交换机上普遍使用的MAC层交换方式是IEEE802.1组织发布的标准:基于生成树算法的交换。为加速网络融合并解决与生成树和虚拟L
本文对中国人民解放军海峡之声广播电台基于网络的播控中心系统体系结构和功能进行了分析;针对系统建成投入使用以来实际应用中存在的不足加以研究并提出升级方案;其中重点对广