改进K-means算法在大数据聚类中的应用研究

来源 :战略支援部队信息工程大学 | 被引量 : 0次 | 上传用户:stevenyhiker
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
随着计算机技术和网络信息技术的飞速发展,特别是移动通讯技术的不断普及,人类已经积攒了海量的数据,并且数据规模仍然在以指数形式爆炸式增长。如何从这些海量数据中挖掘出有价值的信息是许多领域面临的一个难题。聚类分析是常见的数据挖掘技术,在很多领域被广泛应用。其中K-means算法是聚类分析中应用最为广泛的算法之一。然而,直接将K-means算法应用于大数据聚类分析时,存在很多缺陷,不能满足当前海量数据分析处理的需求。针对此问题,研究了K-means算法的改进以及其在大数据聚类分析中的应用。论文围绕大数据聚类分析问题,以提高大数据聚类分析质量和效率为牵引,研究了K-means算法在大数据聚类分析中的应用问题,主要研究工作如下。(1)在分析经典K-means算法优缺点基础上,提出基于leaders算法和随机抽样的改进K-means算法,算法以聚类高效的leaders算法作为预处理,使用其聚类中心作为初始值进行原始数据集的多样本集随机抽样和单样本集的K-means聚类,多随机抽样样本集的并集保证了抽样样本对原始类别的有效覆盖,而小规模的单样本集保证了K-means算法的高效运行,算法即保证了对大规模数据集聚类的效率,又提高了算法的运行效率,对比实验表明,改进算法具有较好的大规模数据集的聚类性能。(2)设计了一种抽样子空间约束的改进加权核K-means大规模数据集聚类算法,算法通过约束随机抽样样本生成的子空间,使其逼近原始数据的聚类中心,避免经典加权核K-means算法中全部核矩阵的使用,从而降低经典算法的时间空间复杂度。理论分析和实验结果表明,改进算法在保持与经典算法相近聚类精度基础上,大幅提高了聚类效率。(3)研究了大规模数据条件下K-means算法并行化问题。针对现有分布式聚类数据块之间由于缺乏信息交流影响聚类质量的问题,提出了基于信息交流的改进分布式聚类方法,修正了局部聚类结果,提高节点数据块聚类结果的质量。针对当前基于距离的局部聚类中心合并结果不准确的问题,提出了基于差异性的局部聚类中心合并方法,综合考虑距离差异性和分布差异性,提升了全局聚类结果的质量。仿真实验结果表明,提出的改进分布式K-means算法能够在保证聚类精度的前提下,显著提升大数据聚类的计算效率。
其他文献
目的:切开复位+Dega骨盆截骨是治疗行走年龄发育性髋关节发育不良(Developmental dysplasia of the hip,DDH)的主要手段,同时行股骨近端截骨可降低复位后头臼之间的压力和增加髋关节的稳定性,但对不同T?nnis分型DDH行股骨近端截骨的必要性尚存在争议,本研究的目的是通过比较切开复位+Dega骨盆截骨,同时行股骨近端截骨或不截骨治疗DDH患儿的临床及影像学结果,明
学位
目的:对比分析TOF-PET和PSF-PET重建技术对全身不同部位及不同大小恶性肿瘤病灶18F-FDG代谢参数的影响。研究方法:回顾性分析多中心(盛京医院、天津肿瘤医院、内蒙古自治区医院)原发恶性肿瘤接受18F-FDG PET/CT全身扫描病例共270例,男121例,女149例,平均年龄59.07±11.82岁(范围:29~87岁);体重指数(BMI):23.92±3.35(范围:16.61~34
学位
城市轨道交通车辆运行时,轨道不平顺产生的轮轨振动经过一系和二系悬挂系统传递至车体,当轨道不平顺的激励频率等于车体固有频率发生共振时,车体垂向振动加剧,致使车辆运行平稳性降低,对旅客乘坐舒适度造成一定影响。因此,为了提高旅客乘坐舒适度,减小车体振动显得非常重要。动力吸振器由于具有结构简单、减振效果好的优点,已成为抑制车体振动的有效手段之一,其减振性能的优劣直接影响城轨车辆的运行平稳性及旅客乘坐舒适度
学位
科技发展带来人们生活水平不断提高,对服装及配饰的要求也在提高。作为配饰的围巾,无论是在设计方面、还是在原料使用方面也在不断的更新,超细羊毛以其优异的性能受到人们的青睐。超细羊毛针织围巾在服用性能方面具有良好的保暖性、透湿性,同时也存在不可忽略的缺点,即织物容易起毛起球,并且当织物与人体接触时人们会感到刺痒。本文主要根据企业提供的原材料,对超细羊毛针织围巾的抗起毛起球性和刺痒感进行深入研究。主要研究
学位
人体体型是进行服装设计及相关产品研发的基础。为寻求适用于服装网络定制的女性人体体型分类方法,本研究利用三维测量和手工测量相结合的方式对407名年龄在20-35周岁的青年女性进行了人体测量。通过因子分析,提取了与人体体型相关的七个主成份,包括人体丰满度因子、人体高度因子、人体小腿因子、人体下肢宽度因子、人体躯干因子、人体肩部因子、人体前腋点因子。利用相关性分析从七个主成份中提取了人体尺寸特征指标及人
学位
彝族是我国有着悠久历史灿烂文化的少数民族。拥有自己完整的民族语言和文字体系,并创造了独特的天文历法和社会制度。勤劳智慧的彝族妇女们在劳动生活中创造了精美的传统服饰文化。由于自然地理环境的差异形成了彝族不同支系的服装风格,又因地理交通不便,使得不同支系比较完整地保存了独特的民族信仰和风俗习惯。服装形制顺应自然环境而产生。彝族妇女们通过采集自然原材料来丰富民族衣文化。因此,彝族不同支系的服饰从材料、结
学位
苗族人稀布的思想,最初面料很珍贵,布料宽幅很窄,因此在裁剪的时候主张物尽其用,减少面料的浪费,在服装设计的裁剪上,需要仔细计算规划面料,通过发明了利用“正裁斜拼”、“正裁起墙”与“以折代剪”,利用这些方法方式减少面料的浪费。苗族服装结构最大的特色也就成为由平面裁剪到立体穿着。从装饰的角度分析色彩、纹样以及肌理是剑河苗族红绣图案的基本要素,这些要素不仅具有装饰意味,也象征着一个地区或者一个支系的着装
学位
大仓彝族作为彝族众多支系里的一支,同其他支系一样,有着渊源的历史,丰厚的文化底蕴,同时又极具特色,是传统文化宝贵的财富。民族服饰既是民族文化的生动载体,又是民族生活习俗和观念的体现,更是各民族身份认同的标志。研究大仓彝族服饰功能及创新,对彝族文化和南诏文化具有传承、保护意义。文章通过对云南省西南部的巍山彝族回族自治县境内的大仓彝族服饰进行分析,通过实地考察、文献查阅、数据测量,对大仓彝族男子、女子
学位
目的:本研究拟在原发性开角型青光眼(primary open-angle glaucoma,POAG)的患者中观察患者Schlemm’s管有无回血、运动前后有无眼压下降、运动前后Schlemm’ s管扩张情况三项指标来评价患者Schlemm’ s的功能,探讨POAG患者选择性激光小梁成形术(selective laser trabeculoplasty,SLT)术后疗效与Schlemm’s功能的关
学位
苗族是一个没有通行文字的民族,在漫长悠远的历史进程中,苗族人民用纹样来承载历史,服饰纹样也是其中之一,它是苗族人民在生活中衍生出来的物质形式和精神寄托,有着鲜明的传承脉络和长期积累的形式变化。其中鱼纹在苗族纹样中颇具代表性,它是苗族人民生活习俗的真实写照,寄托着苗族人民对生活的美好憧憬。黔东南是苗族最大聚居地,蕴藏着丰富的文化和艺术,本文从鱼纹在苗族服饰所承载的历史角度出发,通过鱼纹在黔东南的分布
学位