论文部分内容阅读
随着计算机硬件和软件的迅速发展,尤其是internet技术的快速进步,人们收集数据的速度日益加快。如何从海量数据中寻找到隐藏在数据背后的有用知识成为了一个热门的研究课题。数据挖掘正是解决这个问题的新兴领域。聚类分析作为数据挖掘的重要课题,受到了越来越多研究人员的关注。目前许多聚类分析算法对小数据集的聚类分析效果较好,但是对较大规模的数据进行聚类的效果就不是很好了,所以需要有高度可伸缩性的聚类算法或者聚类方法来解决这个问题。为了使数据挖掘结果更加直观,可视化技术得到了广泛应用。数据挖掘可视化技术可以结合人的视觉优点和主观认知,使数据挖掘过程具有直观性和可交互性,从而挖掘出更有价值并易于理解的信息,正激起更多数据挖掘研究人员的兴趣。本文基于MinerOnWeb数据挖掘服务系统,分别研究了一种具有较好的人机交互功能的可视化技术和一种能够处理大数据集的聚类方法。MinerOnWeb数据挖掘系统是为了给用户提供在线的数据挖掘服务而设计的系统。基于这个系统,本文实现了平行坐标可视化技术和大数据集聚类方法:(1)平行坐标可视化技术:这种方法是把所有的数据维在同一个平面上显示出来,用户不用旋转坐标就能够从同一幅图上看到数据的所有属性及其之间的关系;而一般的数据可视化方法只能看到两个数据属性或者三个数据属性及其之间的关系,如果用户想要看到三个以上数据属性及其之间的关系是不能实现的。MinerOnWeb系统使用平行坐标可视化技术展示聚类结果,不同的聚类用不同的颜色标示。这样,用户就能很清楚的看到属性及其之间的关系,以及每条数据之间的关系。另外,为了让用户能够更容易理解聚类结果,本文为平行坐标的各坐标轴添加了一些事件处理。(2)大数据集聚类方法:数据集聚类的传统方法基本上都是采用将整个数据集导入内存中进行分析。但是对于较大规模的数据集来说,将整个数据集导入内存中较难实现,对系统设备要求太高。基于迭代计算的聚类算法在分析过程中需要反复计算,直到得到较优的结果。即便不需迭代计算的算法也需要用户反复调整相关参数,以便得到较优的结果。而在处理大数据集聚类的时候,这些方法都将是一个非常复杂的过程,需要大量的计算资源和计算时间。本文在处理大数据集的聚类问题时,引入了抽样的方法来改善这样的问题。从大数据集中随机地抽取一部分数据样本,然后只对提取出来的数据样本进行聚类,再利用样本建立的聚类模型,在抽样剩下的大部分数据中实现聚类标签扩展,从而实现处理大数据集的高效聚类方法。