【摘 要】
:
聚类分析已经取得了丰硕的研究成果,在图像处理、交通管理等领域中取得了广泛应用,但也存在诸多问题。例如聚类有效性问题包括选取最佳聚类类数问题和已知类数情况下选取最好的数据划分问题。现在的大部分算法都要预先给予一个类数或者运行的过程中输入类数,但是确定一个合理的聚类类数,有时远比给出聚类结果还要复杂。若在运行中输入类数,又无法实现自动化聚类。本文围绕确定最佳类数问题进行了深入研究,主要研究内容和研究成
论文部分内容阅读
聚类分析已经取得了丰硕的研究成果,在图像处理、交通管理等领域中取得了广泛应用,但也存在诸多问题。例如聚类有效性问题包括选取最佳聚类类数问题和已知类数情况下选取最好的数据划分问题。现在的大部分算法都要预先给予一个类数或者运行的过程中输入类数,但是确定一个合理的聚类类数,有时远比给出聚类结果还要复杂。若在运行中输入类数,又无法实现自动化聚类。本文围绕确定最佳类数问题进行了深入研究,主要研究内容和研究成果包括以下几方面:(1)针对确定形状复杂类型的数据集的类数为题,结合中心点的得分和中心点间最小距离,本文提出算法NCSD来确定最佳类数。首先,利用高斯核函数的极值个数来确定类数范围,减少循环次数,缩短执行时间,提高了算法的执行效率。再者,利用中心点得分的变化来得到中心点候选集,防止因中心点距离过近而导致将一个类分为多个类的情况出现,再进一步利用中心点间最小距离的变化得出类数。通过仿真实验和与11个典型算法的比较,证明NCSD算法可以快速、准确确定形状复杂数据集的类数。(2)针对确定重叠形数据集的类数为题,结合密度权重和紧密度,本文提出了一种确定类数的新算法DWTNC。首先利用密度权重与距离计算得分,得出中心点候选集;然后利用紧密度来缩小中心点的选取范围,防止后期在利用公式判断中心点的变化时出现整体变化小而局部相对变化大的情况,避免导致错误判断;最后利用中心点距离变化得出类数。仿真实验表明DWTNC算法可以更加快速、准确地确定重叠数据集的类数,对于非重叠数据集也具有很好的效果。(3)针对确定半环形数据集、环形数据集、流形数据集的类数为题,基于聚类的几何结构特点进行类数的判断,提出MPV指标,利用MPV确定类数。考虑到若只利用类间最小距离来衡量类间分离度,在数据集较分散且类与类之间距离过近时,会造成错误判断,因此MPV指标利用类间最小距离和密度峰值间距离的平衡来计算类间的分离程度,以增加算法的强壮性;利用所有类内最小距离的最大值来计算数据集的类内紧凑度,在MPV发生最大变化时,得出最佳类数。在真实数据集和半环形数据集、环形数据集、流形数据集上的仿真实验验证了此算法可以更准确的确定半环形、环形、流行数据集的类数。图52幅,表51个,参考文献71篇。
其他文献
情感识别作为人工智能的一个关键领域,不仅为人机交互的发展提供了技术支持,也能够帮助医生实时监测患者的心理状态。脑电图(Electroencephalogram,EEG)记录了大脑活动时的脑电波,这些脑电波蕴含着大量情感信息,能反映出人们真实的情感体验。近年来,深度学习理论逐渐成熟,在传统问题解决上也取得了巨大成功,因此,基于深度学习的EEG情感分类任务受到了越来越多研究者的关注。目前研究者已经提出
以YOLOv3为代表的单阶段目标检测算法因具有较快的检测速度和较为均衡的检测精度深受研究者的喜爱。YOLOv3算法使用深度卷积神经网络提取和识别被检测图像中的特征数据,算法中的损失函数依据提取到的特征数据不断的对模型进行训练和优化,以便找到一组可拟合图像部分特征规律的网络参数,使模型在检测过程中可以通过对网络参数的推导得到和图像中目标真实标签相接近的网络输出。由于损失函数可以提升网络输出的预测值与
随着智能移动终端和空间定位技术的快速发展,基于位置的服务(Location Based Services,LBS)在移动社交网络中得到广泛应用,LBS为人们的日常生活提供了众多便利,但同时也增加了用户位置隐私泄露的风险。由于第三方服务器可以通过LBS对移动用户位置轨迹进行一系列的收集、分析和传播,对用户的位置隐私安全造成威胁,所以在此基础上保护移动用户位置轨迹隐私安全尤为重要。本文通过研究轨迹隐私
人类基因中普遍存在结构变异,一些结构变异的发生会产生重大的基因型疾病,这对人类的健康来说是一个巨大的威胁。为了有效治疗这些基因型疾病,最关键的一步是准确检测相应的结构变异类型和位置。常见的结构变异有插入、缺失、倒位和串联重复。其中倒位和缺失检测是结构变异研究中两个重要而又复杂的问题,目前的研究并未取得令人满意的结果。长读数测序技术的出现,弥补下一代测序技术产生的双端读数长度短的不足,为发生在重复区
随着智能移动设备的普及,社交网络获得了蓬勃的发展。影响力最大化是社交网络分析领域的重要问题之一,该问题自2003年由Kempe等人给出形式化定义以来,就吸引了广泛关注。影响力最大化旨在找到一群具有高影响力的用户作为种子,使得经由他们传递的消息传播范围最广。它在病毒式营销、舆情管控和个性化推荐等领域起到重要作用。本文首先从静态网络的影响力最大化问题入手,设计了一种影响力模型,然后将该模型扩展到动态网
图像局部特征描述作为计算机视觉领域的一个基本问题,决定着图像拼接、图像融合、图像定位、三维重建等后续高级视觉任务的效果。目前主流的研究可以分为点特征描述和线特征描述。与点特征相比,曲线特征更贴近图像信息描述,全局性显著且不易受到噪音的影响。然而,由于曲线存在着端点难定位、长度难统一,且其周围包含较多的重复性纹理等问题,导致目前常用的手工设计曲线特征描述方法只能在单一的图像变化场景中表现出良好性能,
随着移动终端设备的遍及以及定位技术的成熟,基于位置的服务将会得到更加广泛的应用,人们通过使用自己位置享受各式各样服务的同时,隐私安全问题也越来越多的出现。许多不法分子为了窃取用户隐私,会使用各式各样的攻击手段,一旦用户隐私被攻破,人们的生命财产安全将受到严重的威胁。因此,如何在给用户提供一个安全的服务使用环境成为了目前的难题。本文在现阶段基于位置服务的隐私保护方法的基础上,针对匿名区域生成效率不高
随着移动互联网和信息技术的飞速发展,基于位置的服务广泛应用于人们的生活服务中,成为人们生活中不可缺少的一部分。基于位置的服务根据用户的位置和查询内容为用户提供各种与位置相关的服务。但是,人们在享受基于位置的服务带来便利的同时,他们的位置隐私也受到很大的威胁。在已有位置隐私保护方法的基础上,针对用户在匿名区构造过程中可能存在不良行为问题,本文提出了一种基于区块链的CVAS模型位置隐私保护方法。首先,
随着移动互联网日臻完善,大数据等新兴技术得到持续发展,基于位置的服务愈来愈深地影响着人们日常生活的方方面面。当人们选择基于位置的服务出行时,生成的轨迹数据会暴露用户的生活习惯、家庭地址和宗教信仰等隐私信息,如果这些轨迹数据不进行处理而直接发布,攻击者通过对这类轨迹信息后进行挖掘和分析,能够轻易得到用户的个人隐私信息。轨迹隐私保护是基于位置服务中一项重要研究课题,其目的是在保证位置服务质量的前提下保