【摘 要】
:
聚类分析是数据挖掘领域的一种重要方法,聚类结果的好坏不仅依赖于相似度或者距离的定义,而且数据集中的孤立点也会影响聚类的效果。传统聚类分析是一种无监督的学习,没有先
论文部分内容阅读
聚类分析是数据挖掘领域的一种重要方法,聚类结果的好坏不仅依赖于相似度或者距离的定义,而且数据集中的孤立点也会影响聚类的效果。传统聚类分析是一种无监督的学习,没有先验知识的指导。在实际应用中,人们往往可以利用样本空间的一些先验知识或背景信息来解决类标号难的问题,因此产生了半监督聚类。本文首先介绍了聚类分析的相关知识,对数据挖掘中最基本的相似性度量进行了总结。对传统聚类算法进行了分析,给出了传统聚类算法的分类以及主要算法的性能比较;并详细论述了半监督聚类算法的框架以及它与传统聚类算法的不同之处。其次提出了基于最近邻的孤立点检测算法。首先分析了孤立点检测的重要性,给出了最近邻集的确定方法,并详细介绍了检测算法的具体步骤,并使用人工数据集和真实数据集验证了算法的准确性与高效性。本文还提出了基于共享最近邻的半监督聚类算法。首先研究了半监督算法中先验知识的相关情况,介绍了先验知识的获取方式以及表现形式,并提出对约束集扩展的两种方法:根据约束集本身的传递性以及数据集的特点对约束进行扩展。算法结合了扩展后的最近邻集,根据数据点间的SNN相似度构建SNN相似度图,使用图形分割方法得到聚类结果,并通过真实数据集验证了约束扩展方式的有效性以及聚类算法的高性能。最后,本文结合孤立点检测算法和半监督聚类算法,在一个含有孤立点的数据集上进行实验,先对数据集进行“去噪”处理,然后对其进行半监督聚类,通过实验验证了算法在孤立点检测以及半监督聚类方面,比其他算法具有更高的准确性。
其他文献
在文本自动分类领域,传统的文本分类方法需要大量的已标注文本,学习器通过对已标注训练文本的学习以建立分类模型用于对未知文本进行分类。但是人工获得大量的已标注训练文本的
无线传感器网络作为下一代新型网络正在越来越多的受到国内外的关注,它能实时、有效、便捷的获取物理世界信息,并对应用环境进行监控。无线传感器网络在军事、农业、工业、交通
感知无线电技术是通过伺机利用空闲频率的方式提高频谱利用率,来解决目前频谱资源匮乏的问题。感知无线电是一种智能的无线通信系统,它可以通过感知周围的环境,然后以伺机的方式
信任管理是一种适用于大规模的、开放的分布式系统的授权机制。信任管理问题包括形式化安全策略和安全凭证,决定特定的凭证集合是否满足相关的策略以及委托信任给第三方。在
保形性问题是插值曲线曲面造型中一个重要问题,已得到了广泛的研究,而融合曲线曲面造型的保形性问题研究比较少,因此本文主要针对融合曲线曲面的保形进行研究。主要内容包括:
在虚拟场景中模拟真实世界的水体的运动是目前图形学中最有挑战的课题之一。水体拥有不断变化的运动特性和内在复杂的物理特性,这些特性吸引了大量的图形算法开发人员的注意
自上个世纪中期以来,计算机辅助设计随着经济社会发展需要和电子计算机技术的提高而取得长足进步,相继产生了激光测距扫描仪,深度相机,3D打印机等先进的硬件设备。机械图形产业对
人们日常生活中的大部分信息都与位置相关。近年来,随着无线通信、移动定位、地理信息系统(GIS)等技术的快速发展,在智能交通(ITS)、移动商务等领域,用户往往需要在移动过程中获
中国3G时代的到来给电信运营商全业务的开展提出了更高、更严格的要求,发展新一代运营支撑系统(OSS)成为了运营商决胜的关键因素。随着电信业务的发展,新的运营支撑系统规模巨