【摘 要】
:
作为一种重要的机器学习方法,聚类算法在许多数据分类领域得到了广泛的应用,人们可以利用聚类算法完成数据挖掘、图形模式识别、图像分割等工作,并取得了不错的成绩。然而,由于聚类算法无监督学习的特点,对聚类结果的质量进行评估就成了一项重要的研究内容。与此同时,许多聚类算法必须在开始运行之前设置目标数据集的类簇个数,但是在通常情况下,这个数字往往难以事先获知。围绕上述两个问题,本文从簇间分离度的衡量方法入手
论文部分内容阅读
作为一种重要的机器学习方法,聚类算法在许多数据分类领域得到了广泛的应用,人们可以利用聚类算法完成数据挖掘、图形模式识别、图像分割等工作,并取得了不错的成绩。然而,由于聚类算法无监督学习的特点,对聚类结果的质量进行评估就成了一项重要的研究内容。与此同时,许多聚类算法必须在开始运行之前设置目标数据集的类簇个数,但是在通常情况下,这个数字往往难以事先获知。围绕上述两个问题,本文从簇间分离度的衡量方法入手将现有的内部聚类有效性指标进行分类并深入分析,主要完成了以下几项研究工作:1.针对数据集中的离群点和不平衡分布类簇的问题,定义了簇对中心距离(mpdist,midpoint-involved distance),以此来度量类簇间的分离情况。2.提出了一种新型内部聚类有效性指标(MPC,mpdist-based clustering validity index),以此来有效评估多种聚类算法针对不同类型数据集上的聚类效果,得益于线性时间特性,MPC指标能够快速地处理大规模的真实数据集。3.基于(AHC,Agglomerative hierarchical clustering)算法处理数据的思想和规则,将MPC指标以一种新的迭代方式嵌入到AHC算法的运行过程中,提出了一种高效确定目标数据集最佳类簇数(Kopt,optimal number of clusters)的新算法(AHMPC,AHC and MPC based cluster algorithm),以此来减小在确定目标数据集Kopt时因多次重复运行聚类算法所产生的时间成本,从而使得新算法更加适用于大型数据集。在40个不同类型数据集上进行验证,从最终的实验结果中可以看出,本文提出的聚类分析方法是有效的。
其他文献
激光测风雷达已经逐渐融入人类的生活,在天气预报、航天航空安全和智能风电等领域都有着广泛的运用。相比于传统的微波测风雷达,激光测风雷达使用波长更短的光源,因此更容易在微小的气溶胶粒子上产生米氏散射,从而可以有效探测晴空条件下的风场信息。在已有的各类激光测风雷达中,使用1550nm激光的全光纤结构连续波激光相干多普勒测风雷达拥有一些特别优势,如人眼的最大允许曝光量较高、结构简单、关键器件的成本低、可靠
随着移动通信网络技术的发展,越来越多的移动设备接入到通信网络中,在一定程度上加重了回程链路的负载,同时,用户对数据传输速率的要求也越来越高。可以通过在网络中引入缓存技术来减轻回程链路的压力,提升网络的整体性能。网络缓存需要考虑缓存内容和缓存位置两方面的问题,只有准确地将用户的兴趣内容放置在用户的关联基站上,才可以在满足用户需求的同时有效地减轻回程链路的压力。论文的主要研究内容如下:首先,考虑移动蜂
随着机器学习、图像识别、物联网等新兴领域的发展,在处理像基于大数据的计算任务时,传统计算架构已经越来越不能满足快速发展的应用对处理器速度和能量效率的要求。存内计算不同于传统的计算架构,它将系统的存储模块和计算模块相结合,使系统对数据的处理步骤可以直接在内存中完成,实现了存储和计算一体化。存内计算节省了数据从存储模块到计算模块之间的传输,不但大大地节省了能量消耗,也进一步提升了数据的处理速度。静态随
在无源定位中,利用观测站获得目标信号的到达角(Angle of Arrival,AOA)、达到时间(Time of Arrival,TOA)和到达时间差(Time Difference of Arrival,TDOA)等测量值,可以确定目标的位置。有研究人员通过引入到达频率差(Frequency Difference of Arrival,FDOA)测量值,使得基于TDOA和FDOA的定位算法可以
随着无线通信技术不断进步,近年来,天线逐渐朝着小型化、宽带化以及多天线化等方向发展,超宽带(Ultra-Wide Band,UWB)技术以其高功率高效率的数据速率、低复杂度、低成本和高精度等显著特点被广泛应用于端对端无线通信。然而,UWB系统在信号传输过程中,会遭受由信号反射和衍射从而引起的多径衰落效应。而与UWB相结合的UWB-MIMO无线通信系统不仅解决了单个多输入多输出(Multiple I
存储器是当今集成电路产业中的核心部分,随着半导体行业的迅速发展,人们对存储器的要求也越来越高。传统的闪存类存储器由于尺寸过大,不能满足现如今20nm的集成需求而逐渐被其他新型存储器所替代。其中电阻式随机存取存储器(resistive random access memory,RRAM)被认为是一种有很大发展潜力的新型非易失性存储器。RRAM的集成方式一般是采用集成度最高的十字交叉阵列结构。可是RR
当前基于冯·诺依曼架构的计算系统受到内存、功耗、带宽等方面限制,人们试图开发新的架构方式,以避开这些限制。其中,存内计算由于可在阵列中处理数据,降低了对内存带宽的要求,从而节省了能源,因而被广泛研究。通过阅读文献可以发现,目前SRAM存内计算通常采用两种读取方式。第一种是多行读取,具有并行性高的优点,但由于采用模拟计算可能会导致其读出的数据存在误差,难以满足一些对精度要求较高的应用。另一种方法是单
近年来,为了解决“最后一公里”配送中存在的成本高和效率低的问题,众包物流和无人机配送物流已经成为研究热点。众包式无人机配送系统结合众包物流和无人机配送物流的优势,不仅能够有效地整合无人机资源,使具有无人机配送需求的小型配送站无需购买大量的无人机,而且能够提高配送效率和降低总的配送成本。然而,现存的众包系统一方面未考虑无人机配送任务的特殊性,另一方面普遍采用中央服务器作为众包平台,容易出现单点故障、
自20世纪70年代以来,处理器的研发趋势始终关注如何提高内核中指令的执行效率,而主存储器却主要聚焦于存储容量的增大,忽略了速度的提升。处理器与主存发展趋势的不同,造成了两者之间访存速度难以匹配,直接导致了影响计算机性能的“存储墙”问题。为了试图弥合处理器与主存之间的速度差,计算机架构师们普遍采用在系统中插入多级缓存的层次型存储结构。然而,缓存的容量与主存相比毕竟有限,访存期间一旦出现缓存缺失,就会
随着5G移动通信技术的普及,用于无线体域网的可穿戴天线在医疗、物联网、军事等领域具有广阔的应用前景。可穿戴天线的设计需要综合考虑人体复杂的电磁特征以及特殊的应用环境,为满足应用需求,其不仅需要具有小尺寸、低剖面、易与人体共形等结构特性,同时还要具有强的弯曲鲁棒性能、良好的人体加载性能以及满足天线对人体辐射的健康标准等性能特性。严格的要求增加了可穿戴天线的设计难度,目前大多数可穿戴天线的设计难以实现