论文部分内容阅读
近年来,随着计算机软硬件的飞速发展和互联网络的逐渐普及,人们通过Internet和各种移动数字设备所收集到的数据正以日新月异的速度迅速增加,我们正生活在一个浩瀚无边的数据海洋之中。如何从这些海量数据中发掘出有用的知识成为了当今一个热门的研究领域,数据挖掘就应运而生。在数据挖掘的理论研究与实际应用中,与可视化技术的结合就催生了另一门重要的学科——可视化数据挖掘。利用相关可视化技术并结合人的视觉优点和主观认知,把数据挖掘过程以直观和可交互的形式展现在用户面前,从而挖掘出更有价值并易于理解的知识以便于决策。本文在一个基于Web的分布式数据挖掘系统——MinerOnWeb系统的基础上,对数据挖掘中的可视化技术及其实现进行了重点阐述。MinerOnWeb系统是计算智能实验室数据挖掘小组研发的一个数据挖掘服务系统,它集成了分类、聚类和关联规则挖掘的一些成熟算法,能够处理多种文件格式的数据。它的开发遵循J2EE规范,采用了Struts架构。本人重点研究和分析了2D/3D两种数据挖掘可视化技术,然后将这些技术应用在MinerOnWeb系统的如下三个方面:(1)基于3D散点图的源数据可视化:实现了源数据的获取;基于3D的源数据可视化技术为预处理阶段提供了更直观的数据分析;通过属性选择,可以将三维或者四维的数据在3D坐标上展示出来,并且可以随意旋转、平移、缩放和定位。(2)基于2D表格的关联规则挖掘可视化:通过比较各种传统的关联规则挖掘结果表示方法,提出以2D表格这种可视化技术来展示关联挖掘结果更具有优越性。以直观的2D图形和规范的表格相结合来形象地展示关联规则,同时提供属性过滤和交互式选择功能,以使关联规则挖掘结果更直观。(3)基于SOM(Self-Organizing feature Map)的聚类挖掘可视化:由于SOM网络的计算具有黑箱性,为了能更直观地了解自动聚类的特点,本文设计并实现了SOM聚类挖掘可视化模块,利用直方图、散点图和二维表等多种可视化技术,提供聚类挖掘结果可视化展示功能。