基于网格和密度比的DBSCAN算法研究

来源 :辽宁大学 | 被引量 : 0次 | 上传用户:klose123
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
近年来,随着科学技术的飞速发展,数据量的不断膨胀,如何有效地分析这些海量数据已经成为了目前研究的热点和难点。聚类分析方法发展至今,已被广泛应用于生物信息学、计算机视觉、文本文档分类等领域。DBSCAN算法作为一种典型的基于密度的聚类算法,因其能够识别出任意形状的簇,以及能够有效识别出噪声点的特点,该算法得到了广泛应用。但算法本身也存在一些问题,由于其使用单一密度阈值MinPts划分所有的簇,当给出的数据分布不均匀时,DBSCAN算法聚类效果不佳。另一方面,已有的增量聚类方式难以满足增量处理的需求。针对这些问题,本文开展了如下研究工作:(1)本文对基于密度的聚类条件进行了深刻剖析,提出一种基于网格和密度比的DBSCAN聚类算法,首先对数据空间进行多分辨率网格划分,把数据划分到多个网格空间中,并且利用所划分的网格加快查找到网格数据空间类簇的“峰值”和“低谷”,即网格空间的极大值和极小值的集合,再利用密度估计来计算密度比替换密度聚类算法中的密度,从而达到快速自适应地确定聚类密度比阈值和可用该密度比阈值进行DBSCAN聚类的目的。最后针对本文所使用的数据集测试本文的时间复杂度及聚类效果,并将本文算法分别与DBSCAN算法和DPC算法进行比较。实验表明,对于分布不均匀的数据集,该算法在时间复杂度增加不大的前提下,较传统DBSCAN方法的聚类精确度有显著提高。(2)大数据时代下所研究的数据并不是永远不变的,更多的时候人们往往要面临不断新增的数据。针对当前聚类算法在增量聚类过程中的效率问题,提出了一种基于网格划分的增量聚类处理方法。每当有新增数据集加入到原有数据集中时,该方法只对增量数据进行聚类,然后将聚类结果根据匹配到的网格信息纳入到初始聚类结果当中,得到最终聚类结果。最后本文所提方法与传统DBSCAN算法在时间复杂度和聚类效果方面进行比较,测试本文提出的处理方法的可行性和高效性。通过实验可知,在损失部分聚类精度的情况下,能够快速地对新增数据对象实现批量增量处理。
其他文献
随着计算机应用领域的丰富与扩展,图作为常用的数据结构之一,现实世界的诸多领域均用图来描述其复杂而庞大的逻辑关系,如社交网、生物信息网、智能交通网等新兴领域的建模。
随着类脑计算在学术界和产业的热度持续高升,研究生物智能与机器智能深度融合并协同工作的新型智能系统,是当前人工智能与脑认知科学交叉领域面临的重要课题。智能体技术源于
在医学领域中,医生常常对同一个病人在多种模式下的成像,或者在同一种模式下多次成像的结果进行配准,这个过程可归属于数学物理领域中的反问题,而反问题大部分是不适定的。自
随着互联网新型应用技术(如云计算、大数据、IoT、NFV等)的革命式演进,这波数字化转型催化了用户对海量资源信息(如视频、社交图像分享等)的获取需求,流量应用和网络服务也发
物体检测在图像识别与计算机视觉领域中是一个比较热门的研究方向,在诸多领域中,均有着广泛的用途。在自动驾驶领域,通过物体检测来合理的规避行人和车辆;在图像处理领域,图
思维导图作为一种图形工具,能够对学生的思维进行整体发散。因而在小学数学复习中应用思维导图的教学方式,可以在启发学生思维的过程中,加强学生对数学知识和问题的思考探索
包层集成采用多模块段(Multi-Module Segments,MSS)设计方案。为了满足包层模块能够正常运行与安装维护,本文在包层设计与遥操作维护(Remote Handling,RH)的基础之上,展开了对包层背板及背板支撑的结构设计与其相关性能的分析研究,从而验证了所设计的背板及支撑部件的安全性与可靠性,为后续包层集成设计的进一步优化与工程设计阶段提供基础依据。本文在水冷陶瓷包层(Water
机器人在家居环境下执行服务任务时,需要根据发出服务请求指令的服务对象来选择其专属物品进行任务的推理和规划,即执行个性化服务。但当前家庭服务机器人智能化程度较低,任
随着硬件描述性语言(Hardware Description Language,HDL)的高速发展,Verilog作为一种标准化的硬件描述性语言,被广泛地应用在数字电路和系统的设计上。同时,硬件描述性语言
目的:探讨艾灸改善血管性痴呆大鼠认知功能的作用机制。方法:实验共设正常组、假手术组、模型组、艾灸组、西药组。结果:与模型组比较,艾灸组大鼠逃避潜伏期缩短(P