面向大数据的聚类技术及其应用研究

来源 :长沙理工大学 | 被引量 : 1次 | 上传用户:aids1324170
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
随着信息技术的进步,每天都有海量的数据被收集并存储下来,导致数据爆炸式增长。从海量数据中挖掘出有价值的额信息至关重要,聚类算法一直是数据挖掘中倍受关注的研究内容,改进传统聚类算法以适应海量数据的处理已成为数据挖掘和信息处理等领域的重要研究内容。基于密度峰值的聚类算法 DPC(Clustering by fast search and find of density peaks)是近来由Rodriguez Alex等提出的一种高效聚类算法,它具有无迭代性、能识别非球状簇的特点,但在计算N个数据样本点的相互距离时,其时间复杂度为O(N2),在处理大数据时,该算法的效率会很低。如何充分利用分布式存储技术,以及如何提高DPC的时间效率已成为改进DPC算法适应大数据聚类的关键技术。针对这些问题,本文主要工作如下:(1)根据簇中心的密度和离群值显著大于普通数据点的特点,引入线性拟合算法实现簇中心的自动选择,去除与用户交互的阶段。通过与原始DPC算法和其他经典聚类算法进行比较,验证了改进DPC算法的有效性。(2)根据DPC算法对邻近点的依赖,引入LSH(Locality Sensitive Hashing)实现将邻近点集划分到一个区域,完成对数据的分区,并利用函数组和多组分区来提高聚类准确度,利用Spark在内存计算以及迭代计算上的优势,对中间可能会进行shuffle的步骤进行优化,设计出一种高效的分布式聚类算法ELSDPC(an efficient distributed density peak clustering algorithm based on E2LSH partition with spark)。在 spark 平台上对算法进行仿真实验,根据理论分析和实验结果可知,ELSDPC能在满足较高聚类准确度的同时显著提升算法的时间效率。(3)在spark平台上使用ELSDPC对东江湖的降雨量和水流量等水文数据进行聚类分析,提取具有重要价值的信息,为周边居民生活和职能部门决策提供支持。
其他文献
本文主要的研究内容为从1912年中华民国建立开始到1949年中华人民共和国成立为止这三十八年间,上海这座城市中所进行的早期艺术设计教育。通过对在近代工商业不断发展的大环
随着我国经济水平的不断提高,汽车产业在我国也得到了蓬勃发展,我国汽车产业连续八年位居全球第一大汽车产销市场。我国汽车行业现在主要的生产方式为大批量生产,产量大变化
随着互联网的迅速普及以及音频压缩技术的广泛应用,人们更多地通过在线音乐平台获取和欣赏数字音乐,同时音乐创作也变得越来越简单。但与之而来的是音乐曲库数量在成倍增长。而如何有效的管理数量庞大的音乐资源便催生基于内容的音乐信息检索这一学科。其中音乐流派识别是音乐信息检索领域中的一个重要研究分支。近年来随着音乐曲库的飞速增长,音乐流派体系也日渐庞大,运用传统方法处理流派识别问题已难以取得优异结果,且无法在
近年来由各种原因导致的癌症尤其是肺癌病例逐渐增多,目前放射治疗是肺癌最重要的治疗手段,但有证据表明约16%的患者仍因局部复发导致治疗失败[1]。因此放疗抵抗引起的治疗失
木质纤维素是自然界中含量最丰富的天然可再生物质,是微生物发酵生产生物基产品,保持可持续发展的重要原料来源。谷氨酸棒杆菌(Corynebacteriumglutamicum)是非致病性革兰氏阳性
公司高级管理人员,对上是接受董事会聘任和管理的劳动者,对下是经营管理公司并聘用普通劳动力的管理者,兼具着雇员和雇主的属性。近年来,公司高管与公司间的劳动纠纷逐年增加
由于化石能源的污染性以及不可再生性,新能源发电受到了巨大的关注。风能来源广泛,资源丰富,工程技术成熟,因此得到了迅速发展。但由于风力具有间歇性和波动性,给电网的稳定
随着我国城镇化的不断推进,城乡二元矛盾日益深化,为解决城乡二元结构下乡村发展的一系列问题,党的十九大报告提出了乡村振兴战略。乡村建设作为乡村振兴的重要内容,受到了社
近年来我国特大城市超大型医院的建设浪潮引起了社会关注,紧缩的院区用地与激增的就诊交通量,使得医院外部交通组织过程浮现出诸多问题:与城市交通的割裂与冲突、院内交通空
本论文基于石墨烯制备方法的最新进展,通过液相剥离石墨制备石墨烯的创新设计和优化实验,成功制备出大面积的单/寡层石墨烯,研究了液相剥离机理、石墨烯及其复合材料的形态结