基于Spark的岩石图像聚类分析算法研究

被引量 : 0次 | 上传用户:x_schen
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
随着互联网技术迅速增长,人们所能接触到的信息量与日俱增,因此人们对于处理这些海量数据的工具的需求也就越来越高。图像作为一种表现直观、内容丰富的基本的多媒体信息,不管是在科学技术还是在日常生活中得到越来越广泛的应用。对于海量的图像数据,如何能够快速有效地进行管理与检索,继而从中获取潜在的有价值的信息成为人们关注的问题。当前正被人们广为使用的Hadoop平台由于在处理速度上达到其瓶颈,也逐渐满足不了人们的需求。此时,Spark的出现为人们带来了希望。其在处理速度上可高过Hadoop百倍之多,这为人们节省了大量的时间,也使得其在迭代和交互式计算方面远超过Hadoop[1]。大数据的核心处理之一就是数据挖掘,聚类分析作为数据挖掘的一个重要研究内容近年来也受到了不少关注,传统的聚类算法已无法满足海量信息的处理需求,因此高效的聚类技术应运而生。鉴于目前国内外对Spark平台上的聚类算法实现研究甚少,因此本文对Spark平台的岩石图像进行聚类算法的处理。本文的主要工作如下:1.Spark平台研究。Spark平台作为当下新兴的大数据平台相比于已经被广泛使用的Hadoop平台存在很多优点,出于多方面的考虑本文选取Spark平台。2.K-means算法及其改进。由于传统的K-means算法在聚类时特别依赖初始聚类中心的选择,一旦选择的初始聚类中心不合适,算法就很容易陷入单个聚类的最优值,并且分割效果与聚类数目K也有很大的关系,因此本文提出了一种基于概率选择的改进的K-means算法,通过此算法得到的数据集远远小于初始数据集,因此会大大提高K-means聚类的速度。3.将改进的K-means算法应用于处理岩石图像中,使用K-means算法对岩石图像进行特征提取,使得岩石图像易于区分。4.将改进的K-means算法应用于Spark平台实现其高效性。
其他文献
20世纪80年代,借着改革开放的春风,中国的杂志业发展迅速,杂志的种类和数量呈几何级增长。而其中最为引人瞩目的,则是时尚类杂志的飞速崛起。在20多年发展探索的过程中,越来
当前,商业银行的发展受到日益重视,而商业银行竞争力作为银行发展的突破口,也受到越来越多的关注。因此,研究商业银行的竞争力具有重要的理论和现实意义,对于推动我国银行业的发展
矿产资源是经济建设和社会发展的重要物质,如何更好的综合利用开发矿产资源是加快循环经济发展的关键环节。铝是世界上仅次于钢铁的第二重要金属,广泛应用于国民经济各部门。
本文运用规范和实证的分析方法,考察了20世纪50年代以来,国外和我国矿业企业融资方式的巨大变化,结合我国矿业融资的具体情况,对矿业企业的债权融资和股权融资理论与实践进行
随着国内数字出版的蓬勃发展,人才成为影响当前数字出版发展的重要因素之一。通过对现有的数字出版教学形势与数字出版人才需求的分析,数字出版人才的质与量的问题引起了研究
华北板块北缘我国重要的金-多金属成矿带之一,该区经历了古生代多期板块俯冲和陆缘增生过程,构造-岩浆活动强烈,成矿地质条件优越。内蒙古毕力赫金矿床位于华北板块北缘古生
随着一系列审计丑闻接连曝光,会计师事务所审计风险管理开始进入很多学者的研究范围。特别是随着我国政策对创业板、中小板准入条件的放宽,一大批中小企业成为上市公司。按照
近年来,深圳城市建设活动不断加剧,导致沿海带地下水咸化程度不断增大,淡水资源遭到严重破坏,对海岸带地下淡水资源管理、区域环境和城市可持续发展都产生重大影响。本文对海
目的研究分析阿立哌唑联合碳酸锂应用于急性狂躁患者中的治疗效果。方法选取我院2017年3月至2018年11月收治的112例急性躁狂患者纳为研究对象,按随机数字表法将其分为联合组
龙麦安神汤治疗产后狂躁症13例徐胜美浙江仙居县人民医院(317300)笔者于1979年以来,运用自拟"龙麦安神汤"治疗产后狂躁症13例,疗效满意,现报导如下:1一般资料本组13例,全部为门诊病例,大部分病例曾经西医