基于云计算的DBSCAN算法研究

被引量 : 19次 | 上传用户:netting_fish
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
随着计算机应用的普及和网络技术的快速发展,数据的存储量急剧增加,如何有效地利用海量的历史数据分析现状和预测趋势,已经成为各行业面临的关键挑战。解决这一问题的努力促使数据挖掘技术的产生和发展,目前,数据挖掘技术已被广泛运用,它在零售业、金融业、电信业、生物医学及天文学等领域都有很多应用。聚类分析技术作为其重要组成部分,已经广泛应用于模式识别、数据分析、图象处理、市场研究等许多领域。聚类分析中的DBSCAN算法由于具有能在含有噪声的数据空间中发现任意形状的簇的能力,得到了广泛的应用,已经成为数据挖掘研究领域中非常活跃的一个研究课题。云计算是目前国内外研究的热点,它是当前多种高性能的计算模式的发展,是一种通过网络以服务的方式提供动态可伸缩的虚拟化的资源的计算模式。人们可以通过网络在云计算平台上获得可动态扩展的计算和存储能力,具有在降低终端设备要求的同时提高数据处理效率的能力,可以有效地解决处理海量数据时所面临的问题。本论文以实习时参与的项目为基础,分析和研究了云计算技术和海量数据挖掘的相关技术,并重点研究了基于密度的DBSCAN聚类算法。论文针对DBSCAN聚类算法的缺点,结合项目中充电站数据的特点,提出了一种新的算法,这个算法就是基于网格控制因子的DBSCAN聚类算法,它是以项目中所用的固定网格大小的DBSCAN算法为基础的,通过一个叫做网格控制因子的值来微调网格的大小,从而找到一个使聚类精度最好的最佳网格大小。论文用充电站数据证明了其聚类精度得到了有效的改进,同样具有有效降低时间复杂度的优点。本论文要解决的第二个重要问题就是对改进的算法做并行化处理,然后在云计算平台上实现。要对海量数据集进行聚类分析,就必须保证系统能维持在一个稳定、高效的环境。论文设计了基于Hadoop的并行化算法,在搭建了简单的Hadoop环境后,通过在MapReduce框架下对DBSCAN聚类算法进行封装,大大提高了算法的运行效率。最后利用复制的大规模充电站数据对基于云计算的改进算法进行了验证,实验结果表明,基于云计算的DBSCAN算法在不降低DBSCAN聚类质量的前提下,提高了DBSCAN算法处理大规模数据集的效率。
其他文献
公安高校是培养公安事业建设者和接班人的主阵地,在中国特色社会主义新时代,公安高校既要在学历教育中不断提高学生的政治水平和道德水平,又要在党员教育中为公安队伍培养大
研究目的:随着时代的发展,人们物质生活水平的不断提高,儿童和青少年的超重和肥胖发病率呈不断增长趋势,北京、上海等一线城市尤其明显。肥胖不仅给儿童青少年带来身体上的危害,其
<正>平行线与相交线核心知识是平行线的性质与判定.单独使用性质或判定的题目较简单,当交替使用时就不太好把握了,有时不易分清何时用性质,何时用判定.我们只要记住因为是条
<正>房屋为地理现象之一,与人生有密切之关系,其形式,聚散虽因人类意志而起变更,然其受自然环境之影响仍极明显;故房屋之研究在科学之新地学上,应予以特别重视,蓋因其极富地
期刊
制度分析与发展框架是一个关于规则、自然和物质条件以及共同体属性如何影响行动舞台结构、个体所面临的激励及其结果产出的通用框架。本文尝试运用制度分析与发展框架分析我
视觉陈列简言之,即是将合适的商品、于合适的时间、放在合适的店铺位置并以合适的视觉手法,进行视觉的推销。其中,商品的“合适”与否、时间的“合适”与否,可以具体引申出商
<正>一 遵义附近之地理环境 遵义县城位於北纬二十七度四十五分二十九秒,东经一○六度五五分四○秒。(注一)扼渝筑国道之冲要、北距重庆三百八十八公里,南距贵阳一百六十公里
期刊
依据市场贡献细分用户群体和定位游戏产品,有利于精准地市场营销操作。用户期望价值和体验价值与用户满意度直接相关,为用户提供越多、越优质的体验价值可以提高用户满意度,
我国全面建设小康社会的重点和难点都在农村,而农村小康社会建设的关键则在于开发农村人力资源。通过调研,我们对闽清县农村人力资源开发现状及其原因进行了深入细致的分析,