论文部分内容阅读
数据挖掘,又称为数据库中的知识发现,数据挖掘,是指从大量的、不完全的、有噪声的、模糊的、随机的实际应用数据中提炼出新颖的、有效地、潜在的、有用的知识,提取的知识表示为概念、规则、规律、模式的形式。挖掘工具作为数据挖掘的应用手段,也是一个备受关注的研究内容。目前,数据挖掘的工具有很多,一般都使用复杂,不能满足应用需要。易用,交互功能良好的数据挖掘工具已经成为当前研究的热点之一。围绕数据挖掘工具存在的三个问题即挖掘过程是否反映了实际的业务问题,挖掘结果是否能让用户深入理解,开展了三个方面的研究:运算链的设计,Java与Flash的结合,数据预处理过程的改进。为了克服现有数据挖掘工具不能反应实际业务问题,提出了用运算节点和运算链的解决方案,即将获取数据源、数据预处理、挖掘算法选择这三个处理阶段作为一个个具有相应功能的运算节点,每个运算节点具有独立性,同时又一起构成运算链,运算链的高度灵活性克服了现有挖掘工具只能直线式处理的不足,符合了数据挖掘过程是一个反复进行的本质特点。在这个方案基础上,建立了运算链正确性检查规则,帮助用户对建立的挖掘过程进行正确性判断,克服了传统数据挖掘工具因为过于专业性而带来易用性很差的问题。为了使挖掘结果能有丰富的图形展示,以帮助用户理解挖掘结果,在研究了一般结果表现方式的基础上,使用Flash展示挖掘结果,相比用Java的图形展示,Flash有着更为丰富的图形表现能力,又不会带来过大的系统开销。两者的结合,使工具既有了强大的挖掘计算能力,又有了生动的图像表现能力。为了使待挖掘的数据不妨碍挖掘算法的执行效率,研究现有的挖掘工具对于原始数据的处理特点,在此基础上,一方面通过尺度同步的方法将待挖掘数据中的“坏”数据转换为“好”数据,另外一方面通过基于χ2统计的方法将符号型属性和数值型属性进行处理,以减少原始数据集的大小。