论文部分内容阅读
硬件技术的发展使得目前的计算机系统能存储大量的数据。每年要产生大约1,000,000TB的数据,其中绝大多数是数字形式。数据通常通过传感器、监控器记录。每天的一个简单事务,如信用卡支付、电话使用,都被计算机系统记录下来。由于常常记录了许多参数,导致了高密度的多维数据产生。所有涉及到的区域的数据都被采集,这是因为这些数据是潜在、有价值信息的源泉,而有价值信息可以提供一个竞争优势。然而找出隐藏在这些数据背后的有用信息是很困难的。依靠目前的数据库管理系统,人们只能看到数据的小部分。如果数据以文本方式表达,显示的数据将包含大约100个数据维,但当我们处理的数据集包含数百万数据维时这只是大海中的一滴。由于没有可能充分探索采集的海量数据,数据逐渐变得无用,而且数据库渐渐变成数据垃圾场。要让数据挖掘产生效果,很重要的事情就是要把人类包含在数据探索过程中以及把人类的灵活性、创造性、人类总的智慧与目前计算机的巨大存储能力、强大的计算能力结合起来。可视化数据挖掘的目的就是让人类参与数据挖掘过程,让人类洞察目前计算机系统上的大量数据集。可视化数据挖掘的基本思想就是用一些可视化技术形式表达数据,使得人类可以洞察数据、得出结论、直接与数据进行交互。已经证明,可视化数据挖掘技术在数据分析和探索大型数据库有很高的价值。可视化数据挖掘技术尤其在对数据了解甚少、探索目标模糊的情况下特别有用。 论文首先介绍了可视化数据挖掘工具的研究背景、现状、意义、来源、目标和论文工作,可视化数据挖掘领域内国内外已有的文献综述;接下来,论文介绍了数据挖掘和可视化数据挖掘的基本概念、技术与方法;然后介绍了可视化数据挖掘系统的原型结构,在此基础上设计出可视化数据挖掘系统(VDMTOOLS)的架构,进而给出了系统的JAVA实现,并对系统进行了仿真测试和分析。最后,总结了已经完成的工作,对仍然需要解决的问题提出解决方案,提出今后的可行的研发设想。