【摘 要】
:
聚类算法对大规模无标签数据的分类能力使得它在数据挖掘领域占据了重要地位。其发展至今已有众多分支,例如划分聚类、密度聚类、谱聚类等。本文主要研究密度聚类的以下两个问题。第一个问题,继承于DBSCAN的传统密度聚类算法都有一个共性,即通过设置一个单一的全局密度阈值来识别稀疏区域和稠密区域。这种策略从根本上决定了它们很难处理变密度数据聚类。新近的一些聚类算法在一定程度上能够处理变密度数据聚类问题,但是它
论文部分内容阅读
聚类算法对大规模无标签数据的分类能力使得它在数据挖掘领域占据了重要地位。其发展至今已有众多分支,例如划分聚类、密度聚类、谱聚类等。本文主要研究密度聚类的以下两个问题。第一个问题,继承于DBSCAN的传统密度聚类算法都有一个共性,即通过设置一个单一的全局密度阈值来识别稀疏区域和稠密区域。这种策略从根本上决定了它们很难处理变密度数据聚类。新近的一些聚类算法在一定程度上能够处理变密度数据聚类问题,但是它们并没有改变全局单一阈值的设定原则。加之密度具有相对性,这些方法在集簇间密度差异非常大且集簇间分界不明显时仍然表现乏力。第二个问题,大多数基于密度的聚类算法使用欧式距离构建相似度矩阵。这种距离标准在某些数据集上无法构建出满足算法要求的图结构。针对以上两个问题,本文提出了两个算法。针对第一个问题,我们提出了一种基于密度的核心结构扩张聚类算法。该算法的主要原理是仅在相对高密度区域使用密度聚类算法,而在低密度区使用划分聚类算法,以避免在全局使用单一阈值带来的问题。在相对高密度区域我们采用了更加严苛的局部间隙密度聚类算法去构建一些核心密度结构,即初始簇。然后利用划分聚类的思想,把这些核心密度结构当作划分聚类的代表点。最后令这些核心密度结构向各个方向按照一定步长进行扩张以完成剩余点聚类。对于某些无法通过扩张而被聚类的离群点,我们的算法便将之识别成噪声。针对第二个问题,我们提出了一种基于l2-graph的变密度聚类算法。这是一种基于范数投影空间的重建系数方法。它能更好地构建一个相似性图或者构建一个更能体现数据点之间关系的相似性矩阵。它的主要依据是投影子空间内数据点的系数小于投影子空间间数据点的系数,也即簇内数据比簇间数据具有更大的相似性。因此我们用l2-graph代替了 LGD算法中的k-NN graph改进了变密度聚类算法。为了验证本文提出的两种算法,我们分别针对相应问题制造了与之匹配的二维数据集进行演示实验。不失一般性,我们还分别在4个通用数据集上进行了精度对比试验。实验结果表明我们的算法能够很好地解决以上问题且与相关算法相比具有更高的精度。
其他文献
视频监控是现代楼宇中必不可少的安全设施,目前还是以简单拍摄视频为主,出现突发情况时,调用监控录像进行人工查看与取证。此方式存在较大的时间滞后,已难以满足实际需求。面向楼宇监控的人脸识别系统,旨在现有监控网络改动较小的基础上,开发人脸识别、黑名单报警和行人行踪轨迹绘制等功能,提高监控网络的时效性,为楼宇安保工作提供更多保障与支持。本文主要工作包括系统整体结构设计、视频监控中人脸检测、抓拍和识别算法的
随着信息科技的的迅速发展,频谱资源紧张的问题日益凸显,对电磁环境进行多维认知是进行电磁频谱管理和提高电磁频谱资源整体利用率的基础。多维频谱态势感知与生成是电磁环境认知中的关键技术之一。本文研究电磁环境频谱态势感知与生成的关键技术。第一章介绍论文的研究背景及意义,概括了本文的研究内容及结构安排。第二章首先总结电磁环境的关键构成要素,给出基于本体模型的电磁环境知识图谱构建方法,用于构建电磁环境知识图谱
数据发生器因其可以输出复杂的数字激励信号而在电子信息行业中得到越来越广泛的应用。随着数据接口类型的多样化,具有能够兼容不同数据接口类型能力的通用数据发生模块成为研究重点。本文通过对不同DAC的数据接口类型、数据传输速率以及数据位宽进行调研统计,设计了一款能够兼容CMOS、LVDS和JESD204B接口DAC的通用数据发生模块。具体工作内容为:1、总体方案设计。通过对不同DAC的CMOS、LVDS和
随着社会的发展和我国经济结构的优化调整,当前中国经济正逐步从投资驱动转向创新驱动。为鼓励科技创新企业发展,2018年11月习近平总书记宣布在上海证券交易所设立科创板并试点注册制,设立科创板是落实创新驱动和科技强国战略的重要安排,也给创新药企业发展带来了新机遇。此外,2020年初新冠病毒的爆发短期内也将会对医药创新行业起到提升作用。在这样科技创新企业备受关注的市场环境下,创新药企业要想实现稳步发展,
在化学研究中,对碳氢化合物定义某些指标可以简便且直观地反映一些重要的物理化学性质.Randic指标就是这样一种指标.研究Randic指标的极值问题不仅在数学上有着重要的意义,而且对相关的化学研究也有很大作用和影响. 本文主要讨论树图的广义Randic指标的最大化问题.简单图G的广义Randic指标R-α(G)则定义为所有边uv的权重(d(u)d(v))-α之和,α是任意实数,d(u)表示
我国的“营改增”政策是2012年开始实施的,经过几轮试点,对产业结构调整的效应正在逐步显现,大部分行业展现出了向好势头。建筑业作为我国支柱产业之一,由于施工时间较长,资金周转速度较慢,增值税链条尚不完善等原因,对税改表现出了明显的“不适应”,税负不降反升,个别企业甚至出现了经营困难的情况,其中以中小型建筑企业问题最为突出。中小型建筑企业进入门槛较低,从业人数众多,公司资质参差不齐,随着市场日趋成熟
目的 探讨2型糖尿病患者颈动脉内-中膜厚度(IMT)增厚的危险因素,为临床预防提供参考。方法 选取甘肃省康复中心医院就诊的466例患者为研究对象,其中113例2型糖尿病,根据是否发生IMT增厚将2型糖尿病患者分为正常组、增厚组和斑块形成组,分析影响2型糖尿病患者IMT增厚的相关因素。结果 与正常组相比,增厚组患者的平均IMT、年龄、空腹血糖、C-反应蛋白、总胆固醇、低密度脂蛋白胆固醇、肌酐均显著偏
随着经济的发展和市场化进程的不断推进,高校面临的压力越来越大。过去,由于高校非营利的社会性质以及成本由政府分担的特性使得高校缺乏成本控制的动力。事实上,无论是对于高校还是整个社会来说,资源总量都是有限的,如果把有限的资源使用在无关紧要的事情上,那么就浪费了资源存在的真正价值。而高校要想提高自身的核心竞争力,就应该聚焦问题,加强成本控制,合理利用资源。唯有如此,才能促进高校的进步与发展,实现资源的合
随着我国经济的发展和公积金制度的不断完善,人们使用公积金贷款购房的需求日益增加,银行的相关信贷业务也发展迅速。公积金贷款事关重大民生问题,要保持其健康平稳发展,就必须正视制度运作过程中的潜在风险,并给出积极应对,其中重要的一环是能有效评估贷款客户的资质。因此,亟需建立高效准确的模型,对客户的贷款逾期风险进行预测,并为银行的信用评估提供参考,实现风险规避。本文主要以山东省某银行的真实脱敏数据为例,建
伴随着国内高速、高铁等基础设施的快速铺设,一方面加速了经济的发展,另一方面也因建设活动影响到沿途的产业而产生利益纠纷,相关的专业养殖户因环境纠纷,尤其是由噪音引发的纠纷逐年走高。此类案件中,噪音污染纠纷因污染源和污染范围难以确定不易协调,在损失赔偿方面,生物资产评估也是一大难点,在现实中已发生多起该类由于公路上产生的噪音对养殖场产生不利影响,对养殖场来说在遇到环境纠纷后,缺少相关纠纷评估的系统方案