不确定数据聚类研究

来源 :大连理工大学 | 被引量 : 0次 | 上传用户:loverzhouweia
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
不确定数据是近年来在传感器网络(WSN)、无线射频识别(RFID)等领域中涌现出来的一类新数据,对不确定数据聚类分析已经成为数据挖掘领域研究的新热点。本文阐述了数据不确定性形成的原因和表现形式,列举已有的不确定数据聚类算法的基本思想和优缺点,通过这些分析了解到,现有不确定数据聚类算法主要是对传统的聚类算法进行扩展而形成的,算法的流程也都是基于经典的确定对象聚类算法流程。由于数值型数据的聚类问题已经被证实了是NP-难解的组合优化问题,而骨架作为全局最优解的共同部分是获得NP-难解问题启发式算法的有利工具。但是在很多问题中骨架很难获得,近似骨架可以很好的模拟全局最优解,所以对于很多NP-难解问题都采用近似骨架进行算法优化。本文提出了一种基于近似骨架的不确定数据聚类算法框架ABAUDC,主要分为初始聚类产生局部最优解、构造近似骨架和二次聚类三个模块。它采用已有的CKMeans算法作为生成局部最优解的初始聚类算法,简化了对不确定数据对象期望距离的计算。在获得近似骨架后,将约束条件加入到不确定数据集中,并调用SS-UKMeans作为二次聚类算法进行半监督学习。ABAUDC算法特点:一是具有很好的灵活性,它提供的是一个算法框架,任何现有不确定聚类算法都可以作为它的模块;二是实现简单,利用近似骨架作为约束条件,只需进行简单的相交操作就能缩小二次聚类过程中解的搜索空间,实现算法的快速收敛。为了验证新算法的聚类效果,首先构造了以UCI机器学习库中四个经典数据集为原始点的不确定数据集,然后在各个数据集上进行算法比较。通过平均质量标准对ABAUDC算法和无监督的UKMeans算法的聚类效果进行评估。实验证明,新算法的聚类准确度得到了显著的改善。新算法的提出,将两个不同领域知识进行了有效的结合,为不确定数据聚类研究工作拓展了思路,同时也为骨架研究找到了新的应用领域。
其他文献
随着数据库和网络技术的飞速发展,大量的异构数据源应运而生。随着对信息综合利用需求的进一步提高,人们迫切希望解决这些异构数据源的集成问题。中间件技术的发展使得硬件平
三维真实感地形和自然景观的可视化是虚拟现实及可视化技术的基本组成部分,然而,庞大的数据在图形显示硬件有限的条件下不能很好的实时显示和处理。三维地形可视化通常包括地
局部特征描述子以编码的方式来描述图像局部信息,是图像处理技术中的一种基元特征,广泛应用于图像分割和三维重建等领域。随着手机等移动设备的快速普及,其上运行的计算机视
随着微传感器技术、无线网络技术和嵌入式处理技术的发展,无线传感器网络(Wireless Sensor Networks,简称WSNs)吸引越来越多的科研人员对其展开研究,并极大地方便了人们的生
目前,在视频分析和处理过程中,运动物体的实时检测和轮廓跟踪已经逐渐成为计算机视觉分析和识别的关键技术。尤其是人体运动分析的研究在人体动画、游戏、虚拟现实和增强现实
随着网络信息数据的急剧增加,因特网上信息量的日益扩大,人们在信息获取方面的要求也越来越高。语义网的出现为计算机提供了可理解的语义信息环境,计算机可以用基于语义的信
学位
随着互联网技术的不断发展,搜索引擎已经成为人们获取网络信息的主要工具。研究搜索引擎网页排序的目的是从众多搜索结果中将内容相关和权威的网页排在前面,帮助用户迅速定位
随着互联网的快速发展,网络应用中的协议技术研究也在迅速增加。计算机网络中的协议理解对维护网络安全具有重要的意义。但越来越多的网络协议属于私有协议,缺乏公开的规范文
本文是“室内人体异常行为识别报警系统”项目的一部分,该项目为针对室内环境的人体行为监控。旨在通过整合智能视频监控处理流程中的各大关键技术,选择适应于该特定环境的有