【摘 要】
:
聚类是数据挖掘中一个富有活力的研究领域,也是机器学习中一种重要的无监督学习技术。聚类分析作为数据挖掘中一个重要分支,已经植根于生物学、安全、商务智能、图像及模式识别和Web搜索等诸多应用领域。针对密度峰值聚类算法(DPC)存在的选择聚类中心时有人为因素,所选的聚类中心可能会陷入局部最优,参数截断距离d_c根据经验值选择的问题,提出了相应的改进算法,并将改进后的算法对LAMOST观测的恒星光谱数据进
论文部分内容阅读
聚类是数据挖掘中一个富有活力的研究领域,也是机器学习中一种重要的无监督学习技术。聚类分析作为数据挖掘中一个重要分支,已经植根于生物学、安全、商务智能、图像及模式识别和Web搜索等诸多应用领域。针对密度峰值聚类算法(DPC)存在的选择聚类中心时有人为因素,所选的聚类中心可能会陷入局部最优,参数截断距离d_c根据经验值选择的问题,提出了相应的改进算法,并将改进后的算法对LAMOST观测的恒星光谱数据进行了聚类分析。具体研究内容包括以下几个方面:(1)针对DPC算法需要人为因素参与来选择聚类中心的缺陷,给出了基于指数分布的密度峰聚类中心(EDPC)快速确定方法。首先,通过比较得到合适的计算局部密度的方法,并将密度和距离的乘积作为新的判断指标;其次,高于由指数分布确定的上限的数据点被定义为潜在聚类中心;最后,将每个剩余的点分配给距离其最近的较高密度的中心点。理论分析与实验结果表明,本算法可以自动有效地选择聚类中心,克服了人为因素的影响并且提高了算法的聚类效率。(2)针对DPC算法所选的聚类中心可能会陷入局部最优和参数截断距离d_c值根据经验值选取的缺陷,给出了一种新的基于DPC&PSO(PDPC)的聚类算法。首先,为了减少参数d_c对聚类结果的影响,提出了一种新的计算参数d_c的方法;其次,基于(1)中提出的判断指标,提出了一个新的适应度函数,在此基础上,通过PSO算法可以找寻K个初始中心点,然后,执行聚类迭代过程并计算新的聚类中心;最后,通过对比实验的结果表明,PDPC比其他六种算法的聚类结果更准确,并且算法的效率也有了提高。该算法也有效的解决DPC算法所选的聚类中心可能会陷入局部最优的缺陷,以及克服了参数d_c对聚类结果的影响。(3)在上述研究的基础上,以LAMOST光谱数据为应用背景,采用所提出的聚类方法对恒星光谱数据进行了聚类分析,运行结果显示,该方法用于恒星光谱数据聚类分析效果良好。
其他文献
高校辅导员是高校开展大学生思想政治教育工作的重要力量,对大学生成长成才和高校学生工作发展有着不可替代的作用。随着高校学生数量的增加,高校辅导员的压力与日俱增。加上教育体制改革,高校编制受到限制,辅导员队伍的规模进一步受限。因此,我国高校便探索出了选聘研究生担任高校兼职辅导员这一有效方式。研究生兼职辅导员的引入,一方面缓解了高校学生工作压力,为学生工作队伍注入了新鲜血液;另一方面,研究生兼职辅导员以
钢管混凝土作为一种组合结构,其优越性在于钢管与核心混凝土能共同作用并提高整体承载能力,在实际工程中得到了广泛的应用。然而,由于温差效应、核心混凝土收缩以及施工质量等原因,钢管与核心混凝土的界面存在不同程度的脱粘,影响了二者的协同作用。对于钢管混凝土桁拱,脱粘使得腹杆内力无法传递给核心混凝土,严重影响其受力性能。为此,通过在节点处弦管内壁焊接栓钉(内栓钉),以解决脱粘所造成的节点传力问题。本文通过理
现阶段,数据中心光通信主要以中短距离传输为主,随着网络流量的爆发式增长,对数据中心光互连传输速率提出了更高的要求。在高速率、强度调制/直接检测(IM/DD)系统中低成本器件的双重影响下,数据中心光互连系统内的传输信号将会严重受损,而传统的单一功能静态均衡技术已不能满足对通信系统内的多损伤动态补偿需求。在光通信领域已有利用神经网络技术实现信号均衡的研究,然而神经网络在系统复杂度方面还差强人意,是一种
高尔夫运动是全世界最受欢迎的运动项目之一,1984年,中国广东中山成立第一家高尔夫球场,标志着高尔夫运动在中国开始发展。高尔夫运动在我国既经历了蓬勃发展,也经历了各种困
扶贫一直是我国政府非常重视的工作。我国颁布实施了非常多有利于农村扶贫的措施和政策,农村脱贫状况突飞猛进,贫困人口逐年减少,农村居民物质生活水平不断提高。党的十八大
为更好控制氮氧化物排放,燃煤电站应选择合适的脱硝技术并保证脱硝装置的优化运行,这需要进行科学的脱硝技术评价与运行参数预测。目前相关研究存在隶属函数不合理、赋权方法单一、预测精度与再现性不佳等问题。本文分别以国内已完成炉内低氮改造的660MW火电煤粉炉与流化床炉、两个燃煤电站的选择性催化还原(SCR)装置入口NOx浓度与催化剂活性为研究对象,建立合适的脱硝技术评价与参数预测模型,并针对存在的问题,开
近年来,随着量子并行计算和量子计算机的发展,基于计算复杂度的经典密码体制面临着被攻破的危险。那么设计新的通信方案,满足日新月异的需求,势在必行。而量子信息技术以量子
近些年来,推荐系统成为了应对信息过载的有效方法之一。但是,其性能却一直受到数据稀疏性的制约,因此如何缓解推荐系统中的数据稀疏性引起了大量学者的关注。在此背景下,本文提出了一种将物品知识图谱信息和用户社会网络信息引入协同过滤算法中的推荐模型,并以京剧为例验证该算法的有效性和准确性。具体完成了以下几点内容:1、针对知识图谱信息,本文首先针对表示学习TransE模型不适用于一对多的关系数据的特性,提出了
由于民族矛盾、国家利益和大国干预等诸多因素,俄波边界屡经变动,两国关系错综复杂。要研究1917-1951年苏波边界问题,不应将其与俄波边界问题相割裂。苏波边界问题是20世纪“波兰问题”的核心,备受国际社会广泛关注。国内外学者多着墨于第二次世界大战期间的苏波边界问题,缺少对苏波边界问题的整体把握。本文在搜集大量俄文档案文献的基础上进行专题性研究,力争系统地研究各个时期的苏波边界问题,特别是东加利西亚
随着大数据、云计算、人工智能的飞速发展,越来越多的企业、高校、政府机构产生了对海量数据的计算和存储能力的高度需求。数据中心一方面需要对海量数据进行存储,另一方面需要为日益增长的机器学习、深度学习等计算任务提供有力支持。由于单台通用服务器的计算和存储能力均受限,分布式存储以及异构计算正成为当前以及未来数据中心管理海量数据的关键。本文旨在对分布式和异构计算环境下的关键算法和技术进行研究,通过理论和实践