数据聚类及可视化技术

被引量 : 0次 | 上传用户:wg245940815
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
随着计算机硬件和软件的迅速发展,尤其是internet技术的快速进步,人们收集数据的速度日益加快。如何从海量数据中寻找到隐藏在数据背后的有用知识成为了一个热门的研究课题。数据挖掘正是解决这个问题的新兴领域。聚类分析作为数据挖掘的重要课题,受到了越来越多研究人员的关注。目前许多聚类分析算法对小数据集的聚类分析效果较好,但是对较大规模的数据进行聚类的效果就不是很好了,所以需要有高度可伸缩性的聚类算法或者聚类方法来解决这个问题。为了使数据挖掘结果更加直观,可视化技术得到了广泛应用。数据挖掘可视化技术可以结合人的视觉优点和主观认知,使数据挖掘过程具有直观性和可交互性,从而挖掘出更有价值并易于理解的信息,正激起更多数据挖掘研究人员的兴趣。本文基于MinerOnWeb数据挖掘服务系统,分别研究了一种具有较好的人机交互功能的可视化技术和一种能够处理大数据集的聚类方法。MinerOnWeb数据挖掘系统是为了给用户提供在线的数据挖掘服务而设计的系统。基于这个系统,本文实现了平行坐标可视化技术和大数据集聚类方法:(1)平行坐标可视化技术:这种方法是把所有的数据维在同一个平面上显示出来,用户不用旋转坐标就能够从同一幅图上看到数据的所有属性及其之间的关系;而一般的数据可视化方法只能看到两个数据属性或者三个数据属性及其之间的关系,如果用户想要看到三个以上数据属性及其之间的关系是不能实现的。MinerOnWeb系统使用平行坐标可视化技术展示聚类结果,不同的聚类用不同的颜色标示。这样,用户就能很清楚的看到属性及其之间的关系,以及每条数据之间的关系。另外,为了让用户能够更容易理解聚类结果,本文为平行坐标的各坐标轴添加了一些事件处理。(2)大数据集聚类方法:数据集聚类的传统方法基本上都是采用将整个数据集导入内存中进行分析。但是对于较大规模的数据集来说,将整个数据集导入内存中较难实现,对系统设备要求太高。基于迭代计算的聚类算法在分析过程中需要反复计算,直到得到较优的结果。即便不需迭代计算的算法也需要用户反复调整相关参数,以便得到较优的结果。而在处理大数据集聚类的时候,这些方法都将是一个非常复杂的过程,需要大量的计算资源和计算时间。本文在处理大数据集的聚类问题时,引入了抽样的方法来改善这样的问题。从大数据集中随机地抽取一部分数据样本,然后只对提取出来的数据样本进行聚类,再利用样本建立的聚类模型,在抽样剩下的大部分数据中实现聚类标签扩展,从而实现处理大数据集的高效聚类方法。
其他文献
受制于国内技术、资金等条件 ,苏丹政府鼓励外国公司投资苏丹石油业 ,以促进苏丹石油业及国民经济的长足与健康发展。苏丹国内的特殊情况和它在国际上所处的不利环境 ,使投资
BOM作为制造系统的核心基础数据,为系统提供准确、完整、一致的数据来源,对系统的可靠运行具有重要的影响,是实现敏捷生产模式的重要保障。研究敏捷制造系统BOM数据生成和管
前言神经母细胞瘤(Neuroblastoma,NB)是起源于交感肾上腺链的恶性实体瘤,在儿童恶性肿瘤发病率中占第4位,仅次于白血病,脑瘤和淋巴瘤。据估计我国每年都有3000以上新发病例。近
本文报道了H2S浓度高达20~60g/Nm3的气体选用气液相催化氧化技术脱除H2S时,用PDS脱硫剂,H2S脱除率可保持在90%以上.解释了实验研究中用HCl与Na2S反应制备H2S时,HCl被带入吸收塔而引
<正>唐聚五,原名唐福隆,字甲洲,满族,1899年生于黑龙江省双城县兰棱乡。东北讲武堂第六期步兵科毕业。1915年入奉军第二十七师,历任排长、连长、营长等职。1928年12月29日任
中国在从对伊武器核查到伊拉克战争这场重大国际危机前后 ,始终坚持维护《联合国宪章》和国际法基本原则 ,主张在联合国框架内政治解决伊拉克问题 ,反对“先发制人”打击的单
工程造价的动态管理是工程项目成本控制的一个重要组成部分。动态管理就是保证工程项目成本控制和预算的有效性,从事工程预算工作多年,对项目工程造价的动态管理进行分析,并
利用文献资料法、录像分析法、比较研究法、数理统计法和逻辑分析法等研究方法,对第29届奥运会和第30届奥运会男子自由体操决赛前8名运动员成套动作的难度动作进行分析,探究
从发展的历史看,南非死刑的历史大致经过了死刑滥用时期、死刑限制时期和死刑废除3个阶段。1995年6月6日,南非宪法法院通过违宪性审查判决普通刑事犯罪可适用死刑规定违宪;19
培养学生的创新精神和创造能力是当今教育的重要目标之一。然而,在教育实践活动中,对学生创造精神和能力培养的效果却并不理想,这在很大程度上与教师的创造素养有关。学生的