【摘 要】
:
针对K-means算法在海量数据的处理过程中,由迭代计算次数加大导致的内存不足的问题,提出Spark并行化的K-means算法.将粒子群优化(PSO)与K-means结合,利用PSO来提高K-means的全
【基金项目】
:
江苏省自然科学基金(BK20150960)
论文部分内容阅读
针对K-means算法在海量数据的处理过程中,由迭代计算次数加大导致的内存不足的问题,提出Spark并行化的K-means算法.将粒子群优化(PSO)与K-means结合,利用PSO来提高K-means的全局搜索能力,得到初始聚类中心.利用Spark的迭代计算能力,将K-means算法与Spark并行框架结合,提升该算法模型对数据的处理速度,缩短算法的整体运行时间.通过疾病检测数据进行实验,结果表明Spark并行化的PSOK-means算法在保证准确率的同时大大提高了算法的效率,本算法对于海量数据的聚类研
其他文献
随着时间的推移,一体机市场已经逐渐趋于成熟,而其产品性能也越来越强,甚至已经丝毫不逊色于传统的台式PC。这也改变了以往人们对一体机性能≈上网本的固有印象。事实上,如今
本文通过对铜导线过负荷和短路两种电热熔痕金相组织的研究,分析了通电时间、电流、加热温度等因素对铜导线金相组织的影响,总结了利用铜导线金相显微特征鉴定铜导线电热熔痕的
数据结构教学课程中,具有内容专业性强、算法较为抽象、生涩难懂等特点,经过不断的研究,提出了基于CDIO理念下的教学模式,改变了传统的数据结构教学方式,采用多元化的创新理论,将数
计算机专业应用型人才实践动手能力的培养,是高校计算机专业人才培养的一个重要课题。本文对计算机专业人才实践动手能力的培养方法进行分析,计算机专业应用型人才的培养应有一
Lomography的Sprocket Rocket,是“Lomo控”们最新的玩具。,它能轻易拍出超广角的宽景照片,还能捕捉到完整的胶卷齿孔,充分发挥135底片的潜能。同时,作为首款具备底片回转功能的相
摘要:“报修”一词,出现在上个世纪90年代的电力行业中,是国家电网公司 “真诚服务、共谋发展”服务发展战略的有效组成部分。本文探讨如何开展大客户报修服務工作,如何维护客户正常生产、有力提高售电量,使供用电双方共赢的有效措施。 关键词:报修;国家电网公司;发展;品牌 中图分类号:F426.61 文献标识码:A 文章编号:1674-7712 (2012) 18-0093-01 “报修”一词,出现
随着计算机技术的不断发展,以往教学中的板书逐渐被多媒体课件代替,多媒体教学是一种趋势,多媒体技术在教学中既有优越性又有局限性。本文对多媒体裂学的优势和不足展开分析,并提
教学质量是学校的生命线,提高教学质量是教育的永恒主题。而规范有序的管理则是教学质量提升的必要手段。因此,立足课堂教学改革,必须切实加强初中教学管理,才能大面积提高初
美术是一门艺术人文学科,是美的艺术。美术教育,是以教育为手段,向学生传授一定的美术知识和技能,发展和传播美术文化,以美术为媒介,通过美术教学,培养学生的道德情操和审美能力。它
针对非线性分布的数据样本在原始特征空间可分性较差的问题,文中提出一种基于核迁移稀疏编码的跨域图像分类方法,并应用于图像分类.首先将图像特征和字典映射到一个高维的再生核希尔伯特空间,使得线性不可分问题变为线性可分问题.然后在高维特征空间中对每个样本数据进行表示.文中算法不仅有效地处理非线性结构数据,而且考虑了源域和目标域的分布差异以及几何结构信息,获得更为鲁棒的稀疏表达,提高跨域图像分类精度.