SCoS:基于Spark的并行谱聚类算法设计与实现

来源 :计算机学报 | 被引量 : 0次 | 上传用户:bin52833093
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
谱聚类是一种比传统聚类算法更为高效的算法,其建立在谱图理论基础上,并将聚类问题转化为图的最优划分问题.与传统k-means算法不同的是,谱聚类算法不仅能够在任意形状的样本空间上实现聚类,而且可以收敛至全局最优解.然而,谱聚类算法的计算开销较大,不仅需要计算任意两个样本之间的相似性,而且还需要计算Laplacian矩阵的特征向量.因此,在大规模数据场景下,谱聚类算法存在计算耗时过长甚至无法完成计算的问题.为了解决谱聚类算法在大规模数据场景下的计算性能问题,使得谱聚类算法能够应用在大数据集上,文中基于Apache Spark分布式并行计算框架研究并实现了大规模并行谱聚类算法SCoS,对算法流程中的每个计算步骤进行了并行化.具体的,SCoS主要实现了相似度矩阵构建与稀疏化过程的并行化、Laplacian矩阵构建与正规化过程的并行化、正规化Laplacian矩阵特征向量计算的并行化以及k-means聚类的并行化.为了降低谱聚类算法中大规模样本相似性计算的开销,SCoS采用了基于多轮迭代的并行计算方式实现大规模样本之间的相似性计算.针对大规模谱聚类算法中耗时较长的Laplacian矩阵特征向量求解问题,SCoS基于ScaLAPACK实现了特征向量的并行化求解,同时文中也实现了近似特征向量计算算法,并且对比分析了精确特征向量计算与近似特征向量计算对于谱聚类算法的性能影响.为了进一步提升大规模谱聚类算法的性能,SCoS采取了矩阵稀疏化表示与存储、Laplacian矩阵乘法优化以及k-means聚类中距离计算放缩剪枝等多种优化手段,尽可能地减少计算开销、存储空间开销以及数据传输开销.实验表明,SCoS不仅在聚类效果上要优于传统的聚类算法,而且具有较高的运行效率,特别是在大规模数据集下,仍具有较高的计算性能,并表现出了良好的数据可扩展性和系统可扩展性.
其他文献
随着建筑行业的蓬勃发展,工程项目越来越复杂化、大规模化,因此,必须重视施工现场管理的水平和能力,才能更好地适应现代化建筑工程施工的实际需要.但是在目前的建筑工程现场
利用FLUENT软件,对节流气井井下节流流场进行了模拟。结果表明,在节流过程中,气体的压力、速度、密度等均发生了明显变化,节流后气体马赫数增大,节流后气体存在超声速,节流过
以内5优39为示范品种,应用水稻机插秧配套精确定量栽培技术进行高产攻关,创造三川镇机插秧百亩连片的高产记录。为三川镇水稻机插秧高产栽培提供技术支撑,并为三川镇乃至丽江
目的:对肺结核化疗过程中发生抗结核性肝损伤(ATLI)的临床危险因素进行全面的分析。方法:收集2012年10月—2015年7月我中心收治的肺结核合并抗结核药物性肝损伤患者100例,将其设
如何将地面工程地理信息与生产数据信息在同一应用平台上有机结合,并且通过计算机网络实现信息的图文化管理,是石油行业软件开发中近年来共同关心而未得到很好解决的问题。采油工程信息管理系统以B/S方式为主,与C/S相结合的方式开发了系统网络环境,实现了采油工程数据传输的网络化和图形化、油田生产过程中静动态数据与地理信息的有机结合,对加速油田的信息化进程,推广数字油田起到了积极作用,提高了采油工程管理水平。
在社会经济高速发展过程中,建筑行业占据着非常关键的地位,但安全事故频发,是仅次于煤炭行业的高危行业.我国先后颁布了《建筑法》《安全生产法》《安全生产条例》《建设工程
以米渣为原料,采用复合酶解法制备高水溶性米渣蛋白肽,并对其理化与功能性质进行了分析。结果表明:米渣蛋白肽中总肽含量为88.93%,短肽含量为13.05%,总糖含量为3.14%;氨基酸
每个电脑用户为了系统的稳定都会使用一些系统工具软件,如Windows优化大师,超级兔子等等。现在我要向大家介绍的是一款完全免费的软件——“甲壳虫系统工具”(以下简称“甲壳虫
米渣经过前处理去除糖类、脂质后得到米渣蛋白,再经酶解、脱色等处理后喷雾干燥得到米蛋白肽粉。以溶解性蛋白含量为指标,采用正交实验法对酶解工艺进行优化,得到最佳条件为: