【摘 要】
:
知识发现是当前计算机科学与人工智能领域最为活跃的研究课题之一,粗糙集由于其特有的优势,成为了知识发现领域非常重要的理论。而连续属性离散化是利用粗糙集进行知识获取所
论文部分内容阅读
知识发现是当前计算机科学与人工智能领域最为活跃的研究课题之一,粗糙集由于其特有的优势,成为了知识发现领域非常重要的理论。而连续属性离散化是利用粗糙集进行知识获取所必要的数据预处理阶段。本文以知识发现为引子,以粗糙集和信息论为理论基础,以决策表下连续属性离散化为研究对象,提出了两种基于信息论的决策表连续属性离散化算法。算法运用了信息论的相关概念,保证了在离散化的过程中信息的低损失度和数据处理的高效性,并通过合理的实验验证了本文算法的有效性。本文的主要工作如下:1>论述研究背景,指出粗糙集在处理连续属性数据时的局限性,并对离散化算法的研究现状进行了综合探讨;2>介绍粗糙集的重要表示形式——决策表,指出决策表对知识发现的重要性,并给出在决策表下连续属性离散化的形式化定义。3>介绍信息论的基本概念,给出了知识的信息化表示,在此基础上对粗糙集中的主要概念和运算进行了信息化的描述,证明了粗糙集的代数表示与信息表示之间的在属性约简下的相关性。4>提出了两种基于信息论的决策表连续属性离散化算法,两种算法都是运用了信息论中的统计学概念,并以决策表的不一致率为停止条件,在高效离散的基础上保证了决策表的不相容性不发生改变;5>在VC++6.0环境下实现了本文提出的两个算法,并对离散化后的数据利用DMBench平台下C4.5与SVM进行分类处理,与其他算法离散后数据分类结果进行比较,证明了本文提出算法的有效性
其他文献
图像的压缩编码是存储、处理和传输图像信息的基础,提高图像的压缩效率一直是人们不断追求的目标。对图像进行压缩编码,目前成熟的做法都是在变换域进行。在变换域进行图像编码
作为当今通信领域的主要手段,智能手机已经成为人们生活和工作中必不可少的通信设备,同时移动通信网络也已经成为了第一大通信媒体网络。随着智能手机,平板电脑等便携式移动
随着这些年来信息技术的发展,人们在获取数据以及存储数据的能力变得越来越强。海量的数据中往往包含了许多有意义的信息,这些时候就需要利用数据挖掘从这些信息中提炼出现实
互联网的高速增长,在给我们的生活带来极大的便利的同时,也让我们湮没在了信息的海洋中,海量的数据已经使得我们寻找相关信息时,很难快捷的发现我们的目标信息。为了克服信息
随着计算机技术的迅速发展,招生考试工作信息化程度不断提高,北京教育考试院每年通过对各级各类考试的组织,积累了大量的考试数据。这些数据隐含着学校教育的真实现状以及学科教
高维数据通常有几十甚至成百上千个属性,而很多高维数据的类仅存在子空间内。子空间聚类算法尝试在数据集的不同子空间上探测和发现有意义的簇类。
一种新的高维数据子空
多机器人编队控制是多机器人系统研究中一种常见的协作问题,是许多多机器人协调合作问题的基础。近年来,随着多机器人系统在军事、工业、航空航天等领域的广泛应用,多机器人
随着空间信息科学理论与技术的深入研究和广泛应用,遥感技术的应用已渗透到人类生存的自然环境、国防技术、国民经济和社会生活的各个方面,在人类赖以生存的生产与生活中起着举
作为一个开源、高效的虚拟机,Xen被广泛地应用和研究。Xen最初只支持半虚拟化,随着Intel VT技术的推出,使得Xen能够支持完全虚拟化。
Xen默认采用信用调度算法,在单独运行I/
近年来,国内外食品安全问题接连不断,食品安全问题己成为当今各国政府、消费者和科技界广为关注的焦点问题之一。为此,建立完整有效的食品安全追溯体系势在必行。我国现有的食品