论文部分内容阅读
随着信息处理技术的发展,数据挖掘引起了普遍的关注,其主要原因是存在大量数据可以广泛使用,并且迫切需要将这些数据转换成有用的信息和知识。但是由于数据挖掘结果的难以理解性,需借助可视化数据挖掘的理念和技术,帮助用户更紧密地与整个挖掘过程相结合,提高整个数据挖掘过程的灵活性、有效性和与用户的交互性。本文总结了数据挖掘与可视化关键技术、研究现状和应用前景,重点对数据挖掘中决策树可视化模型进行了分析。在以往的数据挖掘模型中可视化技术的应用十分有限,所以用户无法了解挖掘过程,更不能指导挖掘过程,也不能很好地理解挖掘结果。文中分析了经典的决策树ID3算法,对其原理进行了深入剖析。由于ID3算法偏向于属性取值较多的属性,但属性取值多的属性并不一定是重要的属性。提出了一个算法,将多类问题转换成两类问题。阐明其原理,使用同一组数据对两种算法的实验结果进行了分析比较,证明了算法的可行性。设计并实现了一个决策树可视化系统,以C++Builder为开发平台,将可视化部分组件加入系统中,实现了数据可视化、交互挖掘、模型可视化以及评估等功能。为避免挖掘的盲目性,系统中根据信息熵原理对决策的依据属性进行简化,去除对目标不重要的属性,并且通过可视化方式展示属性的预测强弱关系。决策树可视化部分主要包括叶子节点可视化和树可视化。用户如果对挖掘的结果不满意,可以重新选择属性来构造模型;如果满意,将决策树转换成决策规则。最后用测试数据对模型进行评估。该系统建立的可视化模型能够为用户提供更直观、易于理解和分析的界面,提供更好的交互功能,方便用户指导挖掘过程。