基于密度核心的聚类算法研究

来源 :重庆大学 | 被引量 : 0次 | 上传用户:lwhssg
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
随着移动互联网和物联网技术的普及,数据的生产方式受到了极大的影响,数据的大小、维度和种类不断扩张,数据的复杂程度不断上升。从海量数据中挖掘出潜在的、有用的信息至关重要。聚类分析作为数据挖掘的主要手段之一,其目标是将数据对象根据其相似度划分为不同的簇,同一簇中的数据对象彼此相似,不同簇中的数据对象相似度较低。聚类分析被广泛地应用于图像处理、人工智能、医学和航空航天等领域。聚类算法中基于密度代表点的聚类算法取得了较好的成绩,但是在处理具有复杂形状的数据集时,基于单一密度代表点的方法无法给出数据集的形状信息,从而影响聚类效果。本文引入了密度核心的概念,解决了基于单一代表点算法中无法处理具有复杂形状的数据集的问题。通过对现有聚类算法的思想和基础理论进行分析,针对其存在的问题进行了改进,本文提出了新的聚类算法。主要的工作和取得的成果包括以下几个方面:(1)针对现有聚类算法不适合多密度和复杂形状的问题,本文提出了使用逆近邻数提取密度核心点的方法。该方法使用逆近邻数大于自然能特征值的数据点作为数据集的密度核心点,解决了现有聚类算法无法处理具有多密度层次和复杂形状数据集的问题。(2)针对传统聚类算法中存在参数过多、对参数敏感的问题,本文引入自然邻居算法。自然邻居算法能够自适应的迭代计算出数据集的自然特征,该过程无需人工输入任何值,解决了对参数敏感的问题。(3)本文提出了基于密度核心的最小生成树聚类算法。该算法首先使用自然邻居思想计算出数据对象的逆近邻信息,然后将逆近邻数大于自然特征值的数据对象作为密度核心点,最后使用最小生成树算法对密度核心点进行聚类。该算法不需要人为设置参数,能够处理具有多密度和复杂形状的数据集。(4)本文采用了十二个人工数据集和十个真实数据集对本文提出的算法进行了有效性验证,并与K-Means、DBSCAN、OPTICS、DPC、SNNDPC和DCore六种算法进行了实验对比。实验表结果明本文提出的算法在大部分数据集上表现最优。
其他文献
从IT向DT时代转变的今天,数据的爆炸式增长,大量冗杂的信息常常给人们的生活工作带来选择困扰,而在这些繁杂数据治理的问题上很多公司和企业也面临严峻考验。因此,为了解决当今大量数据过载及用户选择困扰等问题,该领域研究者提出针对用户特征为其推荐符合用户喜好的产品或服务,但是目前的很多推荐系统仍存在冷启动、数据稀疏、潜在特征不明确、用户与产品交互方式单一等问题,造成推荐准确度参差不齐。为改善上述不足,论
智能环境中由于需求不同导致的变化因素,单纯通过算法来适应这些变化会造成系统适应能力较差,导致在当前环境下智能系统难以得到广泛的应用和推广。软件定义智能将支撑智能实现的通用要素分离出来,成为预装在节点设备上的“智能层”,再把变化因素归纳为规则,智能层通过更新规则的方式解决各种变化所导致适应性差的问题。本文将软件定义智能应用于智能环境中的睡眠动作识别系统,主要包含以下工作:(1)基于软件定义智能层次化
在一些应用场景下异常的偏离大多数数据的数据(异常点)被认为是有价值的信息,这些数据可以提供重要的价值,比如异常点检测技术已经广泛地应用在金融欺诈、医学辅助筛查、网络入侵检测等领域。传统的异常点检测算法存在两个比较大的问题:第一就是需要输入过多参数的问题,第二就是top-n问题,即给定数据集必须事先确定异常点个数,但是在实际数据集的异常点检测时并不能事先知道异常点的个数。针对上述现存的两个问题,本文
近年来,有赖于集成电路制造工艺技术的飞速发展,芯片规模和复杂度呈指数倍的增长。在芯片设计中,验证工作是十分重要的一环,芯片验证的过程往往占到芯片开发周期和资源的70%以上,在芯片开发过程中起着决定性的作用。由于单芯片的集成密度持续增加,验证的复杂性也变得越来越高,在设计的验证阶段要花费大量的时间和资源,因此,借鉴国内外现有的测试经验与成果,开发一套完善高效的芯片验证环境成为了一项极具意义的研究工作
储能型多电平变换器可以实现由多个低压储能单元通过级联的方式向高压大功率应用转换,具有输出波形质量高,模块化设计等优势,研究该类型的变换器对于分布式能源并网和电动汽车(Electric Vehicle,EV)高压大容量电机的驱动具有重要意义。本文选择混合级联多电平变换器(Hybrid Cascade Multilevel Converter,HCMC)故障运行下的容错特性和储能系统的均衡控制进行研究
近年来,化学学科的飞速发展推动了人类文明的进步,但危险化学品的使用给人们的生命和财产安全带来了严重威胁。危化品具有极大安全风险,缺乏有效的知识管理体系,而该领域已有研究始终缓不济急。人们对于研究危化品性质,防范生产风险等提出了迫切的需求。近年来知识图谱凭借其强大的开放组织能力,成为一种新颖的对海量知识进行管理的方式,为危化品领域的学科研究提供了一个可借鉴的思路。针对以上情况,本文提出将知识图谱与危
近年来,计算机视觉技术取得了很大进展,除了在医学检测、视频监控等领域外,在城市管理中也有着广阔的应用前景,如利用实例分割来识别城市违规经营行为,使城市管理更加高效智能。但是存在着以下问题:(1)实例分割模型如Mask R-CNN的目标检测精度较低,尤其对违规经营行为这类形态不确定对象的检测精度较低,并且分割的掩模精度较低,对象轮廓边界分割不够清晰;(2)现实环境中存在着雾、霾等干扰因素,对模型的检
在连铸工艺中,由于电磁搅拌技术的广泛应用,保护渣在电磁场条件下受影响的性能变化开始逐渐受到专业人士的关注,但由于实验条件所限,相关的研究工作一直进展缓慢。另一方面,由于计算机性能的提升使得利用模拟计算耦合研究磁场和保护渣之间的关系成为可能,通过微观尺度研究磁场对保护渣性能影响的机理,深入理解保护渣受磁场影响所发生的变化,深层次讨论保护渣结构与性能之间的联系,对结晶器中保护渣的设计有着一定的理论指导
断层是煤矿开采中常见的地质构造。采煤工作面过逆断层时,断层破碎带附近煤岩体极易卸荷和失稳,诱发采场煤岩体大范围冒落。为了避免和减少断层带来的不利影响,本文采用理论分析、数值模拟以及相似材料模型模拟试验方法,研究采煤过断层期间覆岩的运移规律和煤岩体内支承压力变化规律,以及工作面采动对断层“活化”影响。主要研究成果如下:(1)采场顶板力学结构稳定性和阻隔效应。当断层面上的摩擦力等于剪切力时,拱结构处于
现代光通信系统中光纤通信是尤为重要的部分,其发展离不开各类新型光信号处理器件,其中全光纤器件易于与光纤系统集成,因而在众多器件中有着举足轻重的地位。在各种全光纤器件中,全光纤声光可调谐滤波器具有调谐范围广、调谐速度快、插入损耗低、易制备、无频移等多种优势。然而,目前的声光滤波器主要适用于单波长滤波,而双波长带通滤波器在波分复用、微波光子学以及太赫兹波等领域非常重要,利用它可以实现快速调谐及窄带宽的