大数据背景下的聚类算法研究

来源 :长沙理工大学 | 被引量 : 1次 | 上传用户:jinmin511
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
随着计算机技术及互联网的飞速发展,现代社会的数据正在以不可想象的速度膨胀,对大规模数据的管理利用已然成为一种现实需求和必然趋势。云计算的大数据处理能力,使得分析和掌握大数据中蕴藏的无尽信息、知识和智慧成为可能。聚类分析作为最常用的静态数据分析方法,常被用于模式识别、机器学习、数据挖掘等领域。随着大数据时代的到来,聚类分析在大数据中的应用也变得非常普遍。Hadoop是云计算环境下一种分布式计算框架,它以低成本和高效率的特性赢得了市场的认可,成为目前在云计算领域最受关注和研究应用的对象之一。很多聚类算法在Hadoop平台已实现,比如K-means算法、谱聚类算法等等,在这些成果的基础上以及针对其中的一些问题,本文做了如下工作:(1)详细介绍了Hadoop生态,尤其对HDFS分布式文件系统、MapReduce分布式计算框架进行了详细的研究和探讨,包括对其多作业链的作业方式,Shuffle阶段的Partition、Combine等各项机制进行了深入的探讨;(2)在Hadoop平台下提出了一种基于Hash改进的K-means算法。将海量高维的数据映射到一个压缩的标识空间,进而挖掘其聚类关系,选取初始聚类中心,避免了传统K-means算法对随机选取初始聚类中心的敏感性,降低了K-means算法的迭代次数。又结合MapReduce框架将算法整体并行化,并通过Partition、Combine等机制加强了并行化程度和执行效率。最后通过实验表明,该算法不仅提高了聚类的准确率和稳定性,同时具有良好的处理速度;(3)在Hadoop平台下提出一种树形聚类算法PAClustering。先提出一种基于权重的方法,将整体数据按分布划分成若干数据块,并针对每个数据块将紧凑的数据抽象成一个向量,形成微团,最后通过树形合并进行聚类,在提高聚类准确度的同时有效避免了传统算法在聚类过程中的迭代运算。最后通过在大小数据集上的实验表明,PAClustering算法不仅具有较高的聚类准确度和稳定性,同时具有良好的处理性能。
其他文献
工业生产中较为传统的采样方式是均等时间间隔的均匀采样,即单采样率系统采样,而单采样率系统理论已经非常成熟,但是在现代工业的生产过程中,都会涉及到多种传感器的配合使用
5G作为下一代移动通信技术,需要在现有的基础上大幅度提升传输速率、系统容量并且降低通信时延,保证传输可靠性。在当前可用频谱资源日趋紧张的情况下,大容量MIMO技术能够有
作为老百姓亘古不变的期盼,平安是各级地方政府必须提供的最基本的公共产品,更是民生需求最基本的体现。要想实现乡村振兴工作,首要做好平安建设,平安建设是乡村振兴的重要保障。当前,我国基层面临各种治理问题和矛盾危机,突出表现为自然资源短缺、人居环境条件恶化、基层公共事务衰败、基层公共服务短缺等诸多问题。因此,需要加大平安建设投入力度,采取更加主动、积极的方式维护社会和谐稳定,才能够实现全面深化改革,更好
青岛基层组织建设经验丰富,叫响全国的“莱西经验”就是以加强村级党支部的领导核心为重要内容,新时期深化拓展莱西经验,需要不断加强村级党支部的引领和带动,而党支部的作用发挥如何关键在人,即党员干部的先锋模范、带头作用的发挥。新形势下,需要不断探索运用新方式、新手段加强对党员干部的教育,为农村党支部培养靠得住、顶得上的好干部。《2019—2023年全国党员教育培训工作规划》中要求创新运用信息化手段,推动
随着移动互联网的兴起,社交网络的发展如火如荼,在国内,以微信、新浪微博为代表的社交产品开始占用人们越来越多的碎片化时间。微博的两种社交规则使其成为一个具有信息集散
纹理图像中重复纹理元素的提取是指将组成纹理图像的具有相同或相似特性的重复单元(即纹理元素)的数据结构提取出来。重复纹理元素提取的目的是识别纹理图像中具有相似视觉特
跨语言层次分类体系匹配是为一种语言的层次分类体系中的每个分类识别其在另一种语言的层次分类体系中最相关分类的一项任务。它是实现跨语言知识共享与融合的重要途径,也是
文本表示算法的研究意义重大。目前常用的两种文本表示算法是以词袋模型为代表的统计语言模型和概率神经语言模型,然而统计语言模型和概率神经网络为代表的文本表示算法都有
在线社交网络(OSNs-online social networks)的发展与普及给人们的日常生活带来了极大的便利,如今每天有多达数十亿的用户活跃在OSNs上,产生了大量的社交信息。渐渐地,人们将
随着信息时代的到来,越来越多的人们开始热衷于在社交网络上发表自己的言论,这使得全球信息呈指数级的增长。如何从这些信息中提取出人们的情感倾向成为一个亟待解决的问题。正是在这种环境的驱使下,情感分析技术应时而生,其广泛应用于商品评价、舆情分析、推荐系统等领域,具有很高的研究和应用价值。情感分析技术中的关键在于情感分类模型的构建。传统的情感分析方法是基于情感词典的方式,这种方法非常依赖于情感词典的构建,