【摘 要】
:
随着移动设备和传感器的大量使用,世界上每天产生的数据量越来越多,如何处理大数据成为一个热门的问题。K-means算法因为其简单、运行速度快而广泛应用于数据的分析和处理,但是由于算法初始质心的随机性导致算法容易陷入局部最优解,而传统串行K-means在处理大数据的情况下不可行,故需要和大数据框架结合。本文重点对K-means算法在大数据场景中进行改进和应用。首先针对K-means由于初始质心的随机性
论文部分内容阅读
随着移动设备和传感器的大量使用,世界上每天产生的数据量越来越多,如何处理大数据成为一个热门的问题。K-means算法因为其简单、运行速度快而广泛应用于数据的分析和处理,但是由于算法初始质心的随机性导致算法容易陷入局部最优解,而传统串行K-means在处理大数据的情况下不可行,故需要和大数据框架结合。本文重点对K-means算法在大数据场景中进行改进和应用。首先针对K-means由于初始质心的随机性导致的算法不稳定问题,参照K-means++提出Init Max Furthest Manhattan K-means(IMFM K-means)算法。新算法使用标准化后的数据,首先选择离原点最远的数据点作为初始质心,随后选择距离已选质心最远的数据点作为剩余质心,并将曼哈顿距离应用于初始质心的选择。然后基于Spark将IMFM K-means算法与K-means、K-means++和提出的另外3个算法进行对比,实验结果证明了IMFM K-means能有效减少算法迭代次数和运行时间,运行结果也更加稳定。然后用Apache Beam框架实现了IMFM K-means算法,并对其做了一系列实验。第一个实验是Spark K-means和Apache Beam K-means在5个数据量、数据维度不同的人工数据集上进行对比,实验结果证明Apache Beam K-means运行速度比Spark K-means更快。第二个实验是将Apache Beam IMFM K-means和Apache Beam K-means在上述5个人工数据集上进行实验,实验证明在相同迭代次数下,Apache Beam IMFM K-means比Apache Beam K-means有更好的结果,最好的情况下,其SSE几乎是Apache Beam K-means的一半。第三个实验是将Apache Beam IMFM K-means和Apache Beam K-means在3个UCI真实数据集上进行实验,实验结果证明在相同的迭代次数下,Apache Beam IMFM K-means准确率可以和Apache Beam K-means持平或者更高,在最好的情况下,可以提升30%的准确度。第四个实验是将Apache Beam IMFM K-means和Apache Beam K-means在不同集群节点个数上进行实验,实验结果证明Apache Beam IMFM K-means的运行时间可以随着计算节点的增加而减少,有较好的扩展性。最后基于Spring Boot、My SQL、My Batis、Spark开发了一个简单的书籍推荐原型系统,将算法IMFM K-means应用于系统的推荐模块,经过测试,IMFM K-means能有效聚类书籍并完成书籍推荐功能。所有实验相关代码已上传到Git Hub:https://github.com/keeper-jie/Apache Beam Kmeans.git。
其他文献
随着我国互联网和移动通信技术的发展,使得基于互联网的医疗平台,如在线医生系统和医患社区网络,越来越多地被患者和医疗专业人员使用,希望它们能缓解日益增长的医疗服务需求,并减少因地理和社会经济障碍造成的医疗服务获取困难。在这类的平台中,患者可以通过键入他们的医疗问题,说明他们的具体症状和已经采取的治疗手段等信息,建立与医生的对话。完成这个过程后,所有关于医疗问题的关键信息,以及诊断和医疗建议,都会被记
随着互联网技术和信息技术的广泛应用,在线教育平台蓬勃发展,智能导学系统作为一种使用前沿的智能技术,通过计算机向学习者传授知识、提供学习路径规划的个性化学习系统,成为在线教育平台当下的发展目标。智能导学系统能够记录学生的习题作答情况,根据历史答题记录来追踪学生对各个知识概念的掌握程度,针对不同学生的知识状态进行个性化习题推荐,重点关注学生在知识掌握能力上的薄弱之处,提高学习效率。在智能导学系统获取学
<正>北京时间2022年10月1日(北美时间9月30日),特斯拉2022 AI Day在加州帕罗奥图举行,人形机器人擎天柱正式亮相。在此之前,波士顿动力旗下的人形机器人Atlas已经可以走路、跑步、攀爬、跳过障碍,甚至可以在跌倒后自行起身。因此,人们很自然地觉得擎天柱理应比Atlas更加敏捷强悍,甚至能如同科幻电影中的机器人一样“强大”。然而,期望越高越容易失望。当看到擎天柱在台上颤颤巍巍地行走,
显微图像中细胞核的检测和分割对生物医学研究和临床实践具有重要意义,包括细胞核形态分析、癌症诊断和分级。然而,由于显微图像中存在染色不一致、目标和背景存在显著差异以及人为噪声等特点,再加上在显微图像中大多都是小目标且有覆盖和粘连的情况,从而导致鲁棒、精确的细胞核检测和分割非常具有挑战性。在目前的临床实践中,依靠病理学家手动评估疾病进程不仅需要专业知识,而且手动检查过程主观且耗时。近年来,深度学习方法
静态分析发现软件缺陷是提高软件质量,确保软件可靠性的有效手段之一。近年来,研究使用自动确认技术来降低对疑似缺陷进行人工审查的成本是研究的热点问题。主流技术路线是通过设计一些缺陷特征,并使用机器学习中有监督的分类算法来自动实现对疑似缺陷的确认。其中难点和重点是设计准确性高的缺陷自动确认模型,本文针对如何提高静态分析缺陷自动确认的准确性以及如何将缺陷自动确认方法应用于核电领域做了如下研究:(1)提出一
在深度学习中,大部分数据集存在数据冗余和样本分布不均衡问题,导致异常检测准确性下降,降低了异常检测效果。此外,大多数传统的异常检测模型忽略了数据点之间的关系结构信息,不能有效应用到图结构数据中。针对上述问题,研究一种不受不平衡样本数据影响以及将数据间的结构信息高效应用到图结构中的异常检测模型具有重要意义。而自编码器能够重构原始数据,可以自动从原始数据学习所需参数特征,能够有效地解决上述问题。因此,
自20世纪末以来,作为一股新兴经济力量,基于互联网普及而出现的电子商务实现了从零到百万亿的爆炸式增长,为许多国家的市场注入了巨大的活力,在经济发展中逐渐占据一定的地位。这其中,电商平台依靠互联网技术的迅猛发展,凭借其商品的齐全性、交易的快捷性及低价优势快速壮大起来。电子商务全球网络零售额短时间内从零不断实现突破式增长,根据联合国贸发会议数据,2020年全球网络零售额占零售总额的19%,较2019年
当前,大数据技术的快速发展,给各个领域带来了海量的数据,而研究这些数据之间的因果关系,进而带来相应的商业、科学研究价值则显得至关重要。当前的人工智能在一定程度上忽略了因果关系而导致动力不足,因果关系的研究可能是实现强AI人工智能的唯一途径。因果关系方向推断则是因果关系研究的热点之一。目前的因果关系方向推断方法通过观测数据来识别变量之间直接的因果影响,但是由于观测到的数据之间可能存在级联结构,变量之
联邦学习作为一种特殊的分布式机器学习,能有效帮助多个边缘设备在满足用户隐私保护要求下,协同训练共享模型,但仍然存在通信开销重和异构数据难训练等问题。为此,本文针对联邦学习环境下,多方协同训练模型中通信开销和异构数据进行研究,主要做了以下方面的工作:面对联邦学习下数据标签缺失,针对无标签数据可能会在训练过程中出现模型性能差的问题,引入联邦对比学习算法。该算法是联邦学习和对比学习的结合,使得我们可以在
近年来随着临床医疗和畜牧养殖行业的发展,大量未代谢的抗生素通过污水等方式排入环境中,这不仅会造成水体和土壤污染还会造成环境中微生物群落失衡,导致水体和土壤环境的自净能力下降。此外,当环境中抗生素积累到一定限值时,还会出现抗性基因,最终通过食物链传递给人类,危害人类健康。因此,去除环境中的抗生素具有重要意义。本研究选择四环素(TCs)作为目标污染物,以皂荚(GS)为生物炭原材料,采用铁和锰双金属改性