无参数峰值聚类算法研究

来源 :浙江工业大学 | 被引量 : 0次 | 上传用户:bin_go_0820
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
数据挖掘是一个从大量、复杂且冗余的数据中利用先进且精确的技术挖掘并产生新知识的过程,目的是寻找数据间潜在的关联,为研究者提供有利的科学指导依据。聚类算法是数据挖掘领域的一种重要的无监督算法,旨在找寻数据内在的分布结构,以便做进一步的数据分析。目前在许多研究领域都有较为广泛的应用,包括模式识别、信息检索、神经网络、图像处理等。本文对聚类算法进行了深入的研究,提出三种新的无参数峰值聚类算法:1.提出了一种基于势能熵的拉普拉斯中心性峰值聚类算法(PELC)。针对目前大多数的聚类算法存在对参数敏感、不能自动完成聚类、不能去除噪音点等问题,本文采用势能熵的概念从原始数据中自动提取出算法所需的参数,并结合DBSCAN框架的聚类原理来自动完成聚类。2.提出了一种基于曲率的拉普拉斯中心性峰值聚类算法(LCPC)。针对传统聚类算法无法有效确定聚类数目的问题,本文提出的算法通过分析和利用一个评估图的曲率来确定聚类数目k,该评估图是聚类过程中簇内方差与类簇数目的关系图。3.提出一种基于节点中心性和曲率的k-means改进算法(LCK)。针对k-means存在随机选择初始聚类中心、无法有效确定聚类数目等问题,本文采用拉普拉斯中心性算法评价节点的重要性,基于曲率的方法有效的得到聚类数目k,并进一步的根据节点重要性得到k个初始聚类中心,完成聚类。本文对上述提出的三种无参数聚类算法PELC、LCPC、LCK都进行了详细的描述,包括算法实现的具体步骤,实验的数据集及评价指标,聚类效果分析。实验中所使用的数据集包括综合数据集、真实数据集、高维数据集等。无参数峰值聚类算法在一定程度上解决了传统聚类算法对参数敏感的问题,实现了真正的无参数,并且在检测效果和聚类上都有一定的优势。
其他文献
机载DDMA-MIMO雷达发射的是多普勒频分多址(DDMA)信号。它利用傅里叶正交基作为不同阵元发射信号的脉间调制加权,即发射相位随阵元序号和脉冲序号改变。相当于在发射时给每个阵元增加了一个多普勒频率,在接收时就可以利用多普勒滤波器组将不同阵元的发射信号分离。虽然采用DDMA信号的慢时间MIMO雷达具有结构简单、回波相关性高、带宽利用率高等优点。但在决定不模糊距离的脉冲重复频率不变的前提下它的多普
线作为最基本的媒介,它存在于所有的绘画形式当中。在中国绘画和西方绘画中,虽然线的表现形式因为中西方文化的不同而存在着明显的差异,但是线都是用来造型的基本手段。不同的线条在绘画中会呈现不同的视觉效果,“十八描”就是典型的代表,均匀流畅的高古游丝描,刚劲有力的铁线描、轻盈灵动的柳叶描……每一条线都有自己独特的审美价值,具有深远的意义和强烈的表现力。在黑白木刻版画中,线同样具有与众不同的美感,由于黑白木
计算思维作为灵活运用工具、分析解决问题的思维方式,顺应我国创新驱动的发展需求,成为21世纪必备技能之一。计算思维和编程密切相关,然而目前的编程教育仍存在诸多问题。游戏化学习的引入解决了编程中的众多难题,因此本研究将游戏化编程教育应用到中学生的计算思维培养研究。首先梳理计算思维和游戏化编程文献,对其研究现状进行研读,分析目前计算思维的概念、方法以及游戏化教学模式、原则。其次以文献综述为基础,将分解、
随着互联网中流量激增和新业务的不断涌现,现有网络技术已难以满足工业物联网、5G移动通信、AR/VR音视频和智慧城市等新应用场景中对实时性和可靠性的要求。面对这种时间敏感性业务的急切需求,如何保证可靠性,准确控制端到端时延成为热点问题。鉴于其成本低、部署简单、产业链成熟且带宽不断增大,以太网技术在新一代传输和接入网络中被广泛使用。因此,出现了多种改善以太网“尽力而为”机制引起的分组丢失和不确定性等问
序列密码的设计思想正在从线性序列变换到非线性序列,与此同时涌现了很多性质良好的非线性部件。进位反馈移位寄存器(FCSR)由于自带非线性,类似于LFSR的代数结构,具备优良的密码学性能,被认为是LFSR的一个较好的替代。在研究FCSR的结构和生成序列的同时,基于FCSR设计的各种新型序列密码开始出现,催生了各种针对FCSR类密码的分析技术与攻击手段,这反过来促进了FCSR理论与结构的进一步完善。本文
近年来,随着传统媒体不断向数字化转型,数字媒体内容逐渐成为互联网的主体。然而,大量的数字媒体内容中只有少部分是真正热门的,这就需要及时而有效的热度预测算法来甄别热门
随着信息技术的蓬勃发展,集成电路集成度不断提高,器件的特征尺寸不断缩小,传统的非挥发性存储器正面临着发展瓶颈:不断缩小的器件尺寸使得浮栅的厚度相应减小,然而过薄的栅
软件安全漏洞问题是当前网络空间安全的重要研究方向之一,软件安全漏洞一旦被恶意攻击,会导致用户的财产损失和信息泄露。模糊测试(Fuzzing)技术作为一种自动化的软件漏洞动态检测技术,因其在漏洞发掘方面的高效性和易用性,近些年获得了很大关注。将Fuzzing测试技术与符号执行、静态分析等其他程序分析技术相结合来提高Fuzzing测试的效率,成为了目前的一个研究热点。论文主要研究以一种更有效、更高效的
随着人类社会发展,贫穷和人类社会历史相伴而生。社会救助作为整个社会保障体系中最古老的一项制度,几千年以前,我国政府通过为社会中的贫困者和其所在的贫困家庭提供帮助的
中文分词是自然语言处理中的基石,由于中文在文本中的特殊性,它并不像英文一样有明显的空格分隔开,而是以单个字为单位,因此如果需要从文本中获取有用的信息,一定需要有正确分词后的文本,才能更好地进行下一步的自然语言处理方面的工作。然而中文分词的两大难点——真歧义以及未登录词,至今仍旧没有很好地解决。面对网络上用户的复杂信息,作为命名实体识别中必不可少的一部分,用户标识识别就可以发挥其作用。序列标注模型在