【摘 要】
:
聚类是数据挖掘和机器学习中应用最广泛的分析方法之一,传统的聚类算法也叫硬聚类或二支聚类。为了解决重叠数据集的聚类问题,众多学者对硬聚类算法进行扩展提出了许多软聚类或三支聚类算法。然而,现有的软聚类算法中仍然存在一些缺陷。一方面,现有的三支K-Means算法中,分类阈值是人为确定的,而且对象对于类簇的权重计算方法也需要人工参数,具有一定的主观性。另一方面,为了对形状不规则的类簇进行聚类,许多基于DB
论文部分内容阅读
聚类是数据挖掘和机器学习中应用最广泛的分析方法之一,传统的聚类算法也叫硬聚类或二支聚类。为了解决重叠数据集的聚类问题,众多学者对硬聚类算法进行扩展提出了许多软聚类或三支聚类算法。然而,现有的软聚类算法中仍然存在一些缺陷。一方面,现有的三支K-Means算法中,分类阈值是人为确定的,而且对象对于类簇的权重计算方法也需要人工参数,具有一定的主观性。另一方面,为了对形状不规则的类簇进行聚类,许多基于DBSCAN(Density-Based Spatial Clustering of Applications with Noise)的软聚类算法被提出,但是使用全局半径的DBSCAN算法无法对多密度数据集进行聚类,并且难以准确设置全局半径的取值。针对以上问题,本文从自适应生成参数的角度出发对现有算法进行改进,主要研究工作如下:针对现有三支K-Means算法中存在的人工参数具有主观性的问题,本文提出了自适应的三支C-Means算法(A-3WCM)。首先,算法基于距离稳定性的原则,通过寻找方差最大增量,提出了自适应计算分类阈值的方法。然后,基于权重与距离呈反比的原则提出了无参的权重函数。该算法不但能够避免人工参数的主观性,而且可以在每次迭代过程中都根据数据特征自适应地计算分类阈值和权重。本文使用硬聚类指标和软聚类指标同时对算法进行实验评估,验证了所提算法的有效性。针对现有三支DBSCAN算法中存在的全局半径无法对多密度数据聚类的问题,本文首先定义了局部半径,并根据k-近邻距离自适应计算局部半径,从而提出了基于局部半径的DBSCAN算法(LE-DBSCAN)。然后,通过考虑近邻的标签,对二支聚类结果的临界点和噪声点重新划分,从而提出了基于局部半径的三支DBSCAN算法(LE3W-DBSCAN)。实验结果表明,本文所提出的算法能够通过局部半径对多密度和模糊数据实现准确聚类。综上所述,本文所提出的算法从改进参数的角度出发,克服了现有算法中参数过于敏感和多密度数据集聚类效果不佳的缺陷,更加符合实际应用需求。
其他文献
目的:基于结构方程模型探讨临床研究协调员(CRC)职业认同、职业倦怠和离职意愿的相互影响,为有效管理CRC提供理论基础。方法:采用基本情况问卷、职业认同评定量表、工作倦怠量表、离职意愿量表问卷对东南大学附属中大医院院内外505名CRC展开调查,并通过AMOS 24.0和SPSS 24.0对各变量统计分析和结构方程模型建立。结果:CRC群体以现场管理组织(SMO)派遣的30岁以下未婚、无子女女性为主
随着智能电网技术的更新迭代,通过构建无线传感器网络来实现对智能电网环境中线路或设备等进行感知测量、实时监控和数据信息传递。同时,也随着电磁能量收集技术的发展,常常通过部署具有电磁能量收集的传感器节点以满足清洁、绿色和可持续的科技发展需求。但是,在电磁能量收集无线传感器网络中,常常存在通信时信道质量较差造成的能量消耗大、部署环境所造成的节点电磁能量收集功率低或大功率电磁能量收集装置难以部署等问题。为
随着通信技术的发展、数字化设备的更新与普及,自然环境中的电磁能量密度飞速增加,形成的电磁污染间接干扰了设备功能、威胁了人体健康。采用屏蔽材料防护是抑制电磁辐射非常有效的措施,但随着便携性和可穿戴性智能电子产品的迅速普及,电子器件对电磁屏蔽材料提出了更轻、更柔、屏蔽效率更高的要求,除此之外还要求具有一定透明性以便于信息交互。因此,研究适用于下一代电子设备的柔性透明电磁屏蔽材料问题具有重要意义。本文结
<正> 赤麂(Muntiacus muntjak)是脊椎动物中已知染色体数目最少的动物,2n=(?)7,♀6,NF=12。赤麂的同源种或近缘种小麂(M.reevesi)的染色体数为2n=46,NF=46。这两个外部形态十分相似的近缘种,核型却有如此巨大的差别,在哺乳动物核型进化的研究中,仍是一个十分令人迷惑的问题。更使人惊奇的是,这两个核型差别如此明显的物种居然还可以杂交。在上海西郊公园,雄性赤麂
近年来,管道是储存和运输液体的最常见系统之一。布拉格光纤光栅传感器是一种低成本、抗干扰和低能耗的传感器。由于管道受外界条件影响,时常发生泄漏事件,造成经济损失和人力浪费,因此研究新型传感器用于泄漏效应而出现在管道壁中的振动信号频谱中监测系统是有重要研究意义。针对石油管道定位系统存在着物理特征难提取、识别精度不高、系统安装困难、外界干扰过大等问题,本文提出一种基于布拉格光纤光栅传感器结合变分模态分解
标语口号是人民群众广为熟知的一种语言现象。高校校园标语不仅是其校园文化建设的重要部分同时也是大学开展思想政治教育工作的重要载体。高校是我国思想政治教育的主阵地,高校校园标语是学校进行思想政治教育的重要载体,也是学校对高校大学生进行的一种隐性教育。高校校园标语在学校各个角落随处可见,从学校宏伟大门伊始,到学校的教学楼、办公楼、食堂、图书馆、宿舍都能找到标语的存在。校园标语早已融入学校师生的生活,同时
随着5G技术以及智能设备的普及,使得互联网上的数据信息急速增长。因此,如何准确地获取隐含的有价值的信息是数据挖掘方法的研究热点。邻域学习方法作为数据挖掘技术的一种,在数据分类和属性约简等领域有着良好的潜力。且由于邻域学习方法的简单有效以及对复杂数据的健壮性使其被学者广泛地研究。然而,现有基于邻域的算法模型仍然存在一些问题值得研究。一方面,现存改进的模型以及算法仅通过距离最小的邻域给测试对象分类,未
近年来,我国城市化建设不断推进,公共基础设施建设越来越完善,工程量也越来越大,PPP模式为我国公共基础设施项目建设提供了巨大的动力。本文从PPP模式下公共基础设施项目融资风险管理的内涵入手,分析了PPP模式下公共基础设施项目融资风险的识别和评价方法,并提出了融资风险管理的创新策略。