面向大数据的聚类算法研究

来源 :南京航空航天大学 | 被引量 : 0次 | 上传用户:qingquan528
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
随着信息技术的飞速发展,模式识别受到越来越多的关注,并在不同的领域得到广泛应用。聚类是模式识别的重要组成部分,其依据给定的相似性度量将数据划分成若干个类,使得同一类内的数据相似度较高,而不同类之间的数据相似度较低,从而发现隐藏在数据中的规律与关联信息。尽管聚类算法的研究已经取得了丰硕的成果,但是在处理大数据时,仍然受到时间、空间和CPU等资源的限制,面临聚类效率低下的境况。如何研究设计出新的聚类算法使其可以对大数据进行高效聚类,得到很多研究者的关注,也已成为模式识别领域的研究热点之一。
  针对现有的聚类算法难以对大数据高效聚类的问题,本文结合抽样技术、特征约减方法与经典聚类算法提出一系列高效率的聚类算法;同时还在经典领域算法研究的基础之上,尝试在算法设计的理念中嵌入量子计算思维、在问题解决的方案中融入量子计算的方法和技巧,开展基于量子计算的聚类算法研究。本文的贡献和研究内容如下:
  (1)为提高大数据的聚类效率,开展基于特征约减与量子计算的划分聚类研究,提出两种算法。第一种是基于特征约减和加权的k-means++聚类算法(FRW-KC)。K-means++算法改善了k-means对初始聚类中心敏感的问题;但是其时间复杂度与数据集的特征数量成线性关系,聚类速度受到大数据应用场景的限制。FRW-KC算法采用基于近似Markov blanket的无监督特征约减方法移除数据集中的冗余特征,然后通过信息熵评价保留特征的权重,最后使用k-means++算法进行聚类。第二种是量子k-means算法。将量子计算引入k-means算法,借助量子计算的并行性、叠加性等特性以提高k-means算法的聚类效率。量子k-means算法首先将聚类数据和k个聚类中心制备为量子态,然后并行计算其相似度,接着通过相位估计算法将相似度信息保存到量子比特中,最后使用最小值查找量子算法查找最相似的聚类中心点。比较量子与经典k-means算法的复杂度得到:量子k-means算法的时间复杂度相对经典算法得到有效降低,空间复杂度可以达到指数级的降低。
  (2)基于密度和delta距离的聚类算法(DDC)是一种较理想的聚类算法,但是它的计算复杂度很高,且需要手动识别聚类中心,费时费力,提出两种高效的DDC算法。前者是高效自适应的密度和delta距离聚类算法(EADDC),它将位置敏感哈希函数抽样方法嵌入DDC算法中对数据集进行规模约减,进而降低计算复杂度,并将一种基于密度的聚类算法(DBSCAN)作为离群点检测技术来自适应识别聚类中心。实验结果表明:与DDC算法相比较,EADDC算法具备高效、自适应聚类的性能。后者是基于量子计算加速的DDC算法,它利用量子计算在一些经典问题求解中的高效计算优势,引入相关的量子算法:即利用量子计数算法加速DDC算法中密度的求解,利用最小值查找量子算法来加速算法中delta距离的求解。理论分析得出:相比DDC算法,基于量子计算加速的DDC算法可以达到二次加速的效果。
  (3)提出一种基于最优K相异性抽样的谱聚类算法(SOKS)。谱聚类算法是目前热门的聚类算法,它对任意分布的数据集都具有良好的聚类效果,且收敛于全局最优解,然而其所需要的计算复杂度很高。提出将最优K相异性抽样(OptiSim)算法用于数据集的抽样以得到有代表性的样本集,然后采用Nystr?m扩展方法对抽样样本集进行近似计算来降低聚类的时间复杂度。实验结果表明:与谱聚类算法相比,SOKS算法可以达到高效聚类的效果。
其他文献
智能视频监控是利用计算机视觉和图像处理方法,在不需要人为干预的情况下,对摄像机拍摄的图像序列进行自动分析,实现动态场景中运动目标的检测和跟踪,判断目标的行为。这是随着数字视频技术的发展而产生的一个新的研究课题,其在国防安全、民用事业等多方面有着广泛的应用价值和极大的发展前景。以复杂场景下的运动目标检测和跟踪作为研究内容,对目标检测、阴影消除,目标跟踪及在移动平台实时实现问题等关键技术进行了研究,为
学位
如今,智能便携式移动设备在人类生活中正扮演着无法取代的角色。作为这些设备的持有者,用户本身具备社交属性且他们彼此间存在着社交关系。此外,新型无线网络技术(如5G技术)的迅速发展为移动用户之间的通信提供了强有力的支持。移动用户基于无线网络实现互联,并通过在线社交网络(Online Social Network,OSN)服务(如Facebook和微博)共享信息,构成了传统的移动社交网络(Mobile
在信号场之于无限边界的开放空间域上,构成了继陆、海、空、天的第五空间域,形成了物理空间内人与人、物与物、人与物的动态可交互虚拟空间。国家在无界开放网络空间域上提出保障信息和资源安全和保障关键信息基础设施互联互通的战略要求,势必为网络空间安全重要内容之一的网络异常行为检测和识别研究提出新的挑战。  本文以国家网络空间安全战略为导向,以保障关键信息基础设施互联互通为目标,立足分组交换技术的网络环境,针
物联网作为世界信息产业发展的第三次浪潮,未来发展潜力巨大。物联网是支撑城市智能交通的重要技术。在面向城市交通的物联网环境下,通过改善基础设施、实施城市交通专用道、快速城市交通、轨道交通等多模式,应用先进信息技术,城市交通得到了快速发展,对城市居民出行发挥了重要作用。面向智慧城市交通物联网的图像数据是大数据,基于该大数据,从系统工程的视角出发,在分析交通规划的影响因素及城市交通能力及运行现状调查分析
随着互联网的飞速发展,通过互联网获取相关信息已经成为现代人获取信息的常用方式。搜索引擎等网络检索系统的出现,加速了网络信息获取的速度和准确性。然而,以搜索引擎为代表的检索系统并不能完全满足用户的搜索需求。为了使搜索结果更加贴近用户当前的搜索需求,搜索排序技术和查询扩展技术极大的提高了搜索的准确率,从而提高了用户的搜索体验。然而,现有的搜索排序通常基于PageRank等传统的排序技术,并没有考虑用户
学位
图像哈希算法是多媒体内容安全领域研究的一项热门课题。它根据输入图像的视觉内容生成一串短小的数字或者字符序列,即图像哈希。在实际应用中,利用图像哈希来代替图像本身,可以有效地降低图像存储代价和图像相似计算的复杂度。由于这些优点,目前图像哈希算法已经被广泛应用到数字水印、图像认证、图像拷贝检测、图像质量评价等方面。通常,图像哈希算法需要具备两个基本性质:鲁棒性和唯一性。鲁棒性是指哈希算法需要具备抵抗图
学位
网络广告能以较低的成本将商品和服务信息传播到世界的各个角落,逐渐形成了一个以计算和技术驱动为特征的网络广告市场。作为广告系统关键部分,点击率预测建模需要处理广告、上下文、用户三方复杂的信息,识别其中潜在的模式和规律,是行业中具有相当难度的问题,引起了工业界与学术界的广泛兴趣。研究广告点击率预测,对于降低广告投放成本、提升用户体验和提高媒体金融收益,都有重要的理论和实际意义。  近年来,国内外关于点
学位
拥堵已成为我国交通领域亟待解决的问题之一。为缓解该问题,我国已在多个城市建立了浮动车监控调度平台。浮动车系统具有低成本、高覆盖率、实时性强等特点,可实时反馈交通状态,该系统的建立在一定程度上缓解了交通拥堵。本文面向交通状态辨识建立浮动车数据的时空语义模型,将其划分为时空位置语义、道路几何语义和道路场景语义3个层面,并针对每个层面目前存在的问题提出相应的解决方案。本文主要研究工作及贡献体现在以下几个
学位
随着终端接入数目和种类日益增加,越来越复杂的物联网应用难以被实时高效的处理已成为制约其业务发展的瓶颈。一方面,由于物联网(IoT)在一些应用领域,比如虚拟现实,增强现实(VR/AR),超高清视频直播以及智能制造等提出了复杂、多样、实时等新的业务需求。另一方面,目前的物联网终端设备存在处理能力不足且电池容量有限等缺点,难以为复杂多样的物联网应用提供实时处理。边缘计算服务的出现,为这些应用提供了有效的
学位
认知协作网络是一种基于协作通信技术的认知无线电网络,不仅解决了不同网络在特定的时间与空间中频谱资源分配不均的问题,而且可以通过主次用户间的协作提高网络性能。但随着各种无线技术和移动应用日益丰富,由于无线信道的固有特性,服务质量不仅会因信道衰落与频谱竞争引起传输性能下降,也会因安全问题造成性能损失与波动。因此,如何提升认知协作网络的传输效率,保证传输的安全稳定是传输机制的研究中首要解决的问题。本文从
学位