基于高维空间的聚类技术研究

来源 :中北大学 | 被引量 : 0次 | 上传用户:evaxiang
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
随着计算机应用的普及,信息系统产生的数据量日益增大,迫切需要高效的数据挖掘工具,从大量原始数据中寻找有价值的知识模式。聚类分析是数据挖掘的重要工具之一。如何正确处理维度达到数百、数千的数据集合,如何从高维数据集中寻找潜在的、自然存在的聚类簇,这是当前聚类分析研究的热点。本文针对聚类分析的热点和难点问题----高维聚类展开研究,目的是寻求有效的高维聚类算法,以及有效的高维数据离群点发现和聚类结果表达等技术。本文研究了高维聚类分析的关键技术,主要工作有:1、针对高维数据空间下聚类簇的分布特点,改进了一种基于子空间的映射聚类算法。本文应用柏努利分布表示二元数据的分布特征,把基于有限混合柏努利分布模型与EM(Expectation-Maximization)算法相结合的高维二元数据映射聚类方法,一方面发现各种子空间下的聚类簇,一方面为每个簇指定相应的属性子集,实现了不同子空间下聚类簇的挖掘。2、从映射聚类算法出发,设计了一种高维空间离群点发现的算法。首先,运用一种映射聚类的算法寻找数据点相对密集的子空间。为了尽快找到这些数据簇及其相应的子空间,可以对数据进行二元处理,即把全部数据集转化为二元数据,然后运用二元数据映射聚类方法找到映射簇及相关联的属性集合;第二,根据属性熵的定义,对每个属性集合的每一属性判别其离散程度;第三,在离散程度较大的属性集合中确定离群点;第四,进行簇间属性集合的交叉分析,发现跨子空间的离群点。3、仔细研究基于粗集理论的高维聚类结果表达方法。认为聚类簇必须以有效的方式加以表达,相对完整地传达聚类运算的结果,以利于人工交互,完成知识发现的后续操作。因此,聚类结果的可表达性、可解释性是聚类算法必须考虑的关键技术。本文运用粗集(rough set)理论,引入属性空间上的粗糙集理论,考虑数据在对象空间和属性空间的不同特性,使聚类结果特征从对象空间和属性空间两个角度得到了综合反映,并以规则的形式表示聚类知识,既可全面表示数据聚类结构,也可实现聚类增量计算。
其他文献
信任和授权是未来PKI技术的一个重要的发展方向,步入授权领域已成为一个发展趋势。本文介绍并简要的分析了PKI技术和P2P网络;分析了PKI的信任模式和主要的证书类型;讨论了各
随着网络通信的飞速发展以及多媒体技术的广泛应用,数字产品版权的保护问题变得越来越重要。数字水印技术已成为解决数字多媒体版权问题的主要工具。本文研究了用于图像版权
在面向服务的软件架构中,功能有限的单个Web服务往往不能满足用户的复杂应用需求,因此人们提出了一种方法,将现有的Web服务按照一定的规则组合起来,从而可以实现具有复杂业务逻辑
体视化(VolumeVisulization)尤其是其中的体绘制(Volume Rendering)是三维数据场可视化领域最重要并且发展最迅速的一项技术。在医学三维重建、计算流体力学、地震地质等众多
移动群体感知中,移动终端集成了多种感知设备和通信端口且分布广泛,能够收集、共享各类感知数据。然而感知节点在感知能力、通信端口、移动规律等方面与收集实时、精确且覆盖
作为IETF正式颁布的网络层安全标准,IPSec协议是一组网络安全协议的集合。它可以为网络上传输的信息提供基于密码学的保护,为IP数据包提供机密性、完整性、可认证性等安全服务
随着互联网的迅速发展,电子商务已经成功融入进人们的日常生活中,成为必不可少的一个部分。个性化推荐技术作为一种重要的信息过滤手段,目前被广泛用于电子商务的各项应用中。然
足球机器人系统是一个典型的多智能体系统,同时又是一个典型的多机器人合作系统,并为它们的理论研究和模型测试提供了一个标准的实验平台。机器人路径规划是智能机器人的一个
本文主要侧重于研究如何构造一个基于可信计算的Linux完整性系统。在操作系统内核启动之前,从BIOS到启动装载器再到内核,是严格串行执行的,但之后情况就变复杂了,大量的程序并没
随着以计算机技术、通讯技术、消费电子技术为主的IT产业的快速发展,嵌入式实时系统得到了越来越广泛的应用。在包括科学研究、工程设计、军事技术、商业娱乐及人们日常生活