【摘 要】
:
k-means算法被誉为十大经典数据挖掘算法之一,自被提出以来就因其高效的特性而被广泛应用于各个领域。但是,随着互联网的深入发展,网络上的数据呈爆发式增长,使得k-means算法的效率在大数据场景中面临挑战。为了进一步提升k-means算法的效率,本文分别针对精确k-means算法和近似k-means算法各提出了一种加速策略。本文的具体工作如下:1.本文针对精确k-means算法提出了一种基于多粒
【基金项目】
:
国家自然科学基金项目(62176033,61936001); 重庆市教委重点合作项目(HZ2021008):多粒度大数据智能计算关键理论及应用,2021.01-2023-12; 重庆市自然科学基金项目(cstc2019jcyj-cxttX0002);
论文部分内容阅读
k-means算法被誉为十大经典数据挖掘算法之一,自被提出以来就因其高效的特性而被广泛应用于各个领域。但是,随着互联网的深入发展,网络上的数据呈爆发式增长,使得k-means算法的效率在大数据场景中面临挑战。为了进一步提升k-means算法的效率,本文分别针对精确k-means算法和近似k-means算法各提出了一种加速策略。本文的具体工作如下:1.本文针对精确k-means算法提出了一种基于多粒度的近邻球框架。该框架借用了Ball k-means算法提出的近邻球的概念,针对目前部分快速精确k-means算法上下界宽松,约束力不强的问题,提出在近邻球的基础之上来更新上下界。该框架从两个方面实现了加速:首先,该框架通过使用近邻球的概念,缩小了样本点的搜索范围;其次,该框架可以让每个样本点获得约束力更强的上界和下界。为了验证该框架的有效性,文章对应用框架后的代表算法与部分精确k-means算法进行了时间复杂度分析,还将这些算法在真实数据集上进行了效率对比,实验结果表明,使用近邻球框架之后的算法在大部分数据集上比其他快速精确kmeans算法的效率更高。2.本文提出了一种基于多粒度的快速近似k-means算法。该算法从两个不同的角度实现了加速:首先,该算法直接利用上一轮迭代过程中的信息来为每个簇寻找近邻簇,进而快速缩小样本点的搜索范围;其次,该算法利用上下界的条件快速减少了需要参与分配过程的样本点的数量。为了验证该算法的有效性,本文在不同规模和不同维度的真实数据集上进行了实验。实验结果表明,该算法在平均聚类质量损失约为2%左右的情况下可以使得算法的效率比Lloyd算法快几十到几百倍。
其他文献
情绪是一种结合了人的思想、认知、感觉和行为的综合状态。情绪在人与人之间的沟通交流、对事件做决策和对事物进行认知的过程中,起着必不可少的作用。近年来,运用信息技术手段对人的情绪进行正确识别受到了各个领域专家们的广泛关注。通过计算机视觉的方法分析面部微表情、自然语言方法分析文字包含的情感等都是对人类情感进行分析的重要手段。脑电信号(EEG)作为一种通过观察大脑皮层神经细胞的生理活动进而分析人体情绪的方
微生物检测和抗菌治疗与人类健康息息相关,快速检测和有效清除病原微生物对疾病治疗至关重要。传统的微生物检测方法如酶联免疫吸附检测(ELISA)、聚合酶链式反应(PCR)技术等,操作步骤复杂、耗时长且对仪器要求较高。另一方面,耐药性微生物的出现使得新型抗菌疗法的研发成为亟待解决的问题。聚集诱导发光分子(AIEgens)由于其出色的荧光和光敏性能,在微生物检测和抗菌治疗中表现出巨大的应用潜力。本文对AI
自2020年我国提出“碳达峰、碳中和”目标以来,商业银行已将绿色金融作为未来银行业发展的重要目标。近年来,商业银行主要通过绿色金融贷款形式,将资金集中投向企业B端开展绿色金融服务,而对零售C端的绿色金融发展模式仍处在探索阶段。商业银行应充分发挥客户资源的规模优势,将传统营销理论和网络整合营销原则相结合,开创C端绿色金融发展的创新商业模式,引导个人消费者参与绿色金融,从消费端刺激生产端不断向绿色低碳
随着电动汽车的快速崛起,私家车的持有率也在快速增长,城市交通系统受到严峻的挑战。合理设置交通设施、规划交通路线、实施分流方案可以有效减少道路拥堵时间、降低发生频率,从而减少安全隐患、提升居民幸福感,是智能运输系统(Intelligent Transportation System)的重要组成部分。交通流预测作为智能交通控制方法的重要步骤,一直以来受到学术界的广泛关注。交通流数据的时间、空间模式和随
身份识别技术通过分析云用户特征是否合法可以有效地识别出异常用户,在一定程度上保障系统安全。边缘计算网络作为云用户访问网络资源的第一关更加需要对云用户身份进行识别,但是由于边缘计算网络的特殊性,身份识别任务对时延和能耗更加敏感,因此设计符合边缘计算网络的身份识别任务分配策略更加重要。通过对现有身份识别任务分配策略的研究,本文取得了如下的研究成果:1.针对边缘计算中身份识别任务分配能耗和时延敏感问题,
通过分析云平台接入日志中的RESTful API数据可以识别出当前访问者的资源访问动作是否存在异常。但RESTful API数据中正常类与异常类的高不平衡率使得异常检测模型的准确率下降,同时潜在的未知异常是已知异常以外不可忽略的安全威胁。为解决以上问题,本论文首先提出基于KNN-DPC聚类的RESTful API采样方法,解决RESTful API数据的不平衡问题,然后在此基础上提出基于聚类算法的
随着容器云平台的蓬勃发展,云中心托管的容器服务数量越来越多,随之承载的租户规模也越来越庞大。租户是向云中心付费的实体,是云任务的发布者,保障租户的服务质量(Qo S)在多租户容器云平台显得尤为重要,同时,节点负载动态变化会引发容器迁移,传统的单一目标迁移策略并不能满足大量租户的差异性需求。基于上述问题,论文重点研究了多租户环境下容器云资源放置和迁移策略,在保障租户Qo S的同时,减少云中心运营成本