基于三支决策的重叠聚类方法研究

来源 :重庆邮电大学 | 被引量 : 0次 | 上传用户:ujjih
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
聚类分析是挖掘数据中潜在结构的重要工具之一,它被广泛应用在模式识别、生物科学、社会科学、心理学和数据挖掘等领域中。在网络结构分析、无线传感器网络和生物信息处理等领域中,普遍存在着类与类重叠的现象,即一个元素可能属于多个类中。特别是在社交网络中,一个用户根据不同的兴趣爱好,可能会是多个社区的成员,不同社区之间普遍存在重叠现象。因此,本文主要针对类与类之间存在重叠现象的聚类问题进行了研究。   本研究基于决策粗糙集模型的三支决策,借助区间集的表示形式对聚类的概念进行了重新描述。一个类(簇)被定义为一个区间集的形式,即由上界集合和下界集合描述;元素相应地被分为正域元素、边界域元素和负域元素。也就是说,一个类(簇)不再是一个集合表示,而是由一对集合表示。处于正域的对象是肯定属于该类的成员,处于负域的成员对象肯定不属于该类,处于边界域的成员可能属于该类。基于三支决策的聚类,有利于解释类与类之间的重叠现象,比如处于某个类的正域或边界域的对象很可能也是另一个类的正域或边界域对象。因此,类与类之间的重叠分类情况将更加多样化。本文详细分析了类与类之间可能存在的各种重叠情况,并且根据不同的重叠情况,定义了重叠度,根据重叠度给出不同情况下的类与类的合并策略。考虑到数据既有网络型数据,也有关系型的数据,提出了一种两步聚类思想,即:首先针对不同类型的数据提出不同的初始化聚类方法;再根据类与类之间的不同重叠类型,根据前面提出的聚类合并策略得到三支决策的聚类结果。随后,根据网络型数据和关系型数据不同的特点,分析其聚类结果的基础上,提出了检测数据集中的特殊点的方法。实验采用了常见的社交网络数据集跆拳道俱乐部数据集(Karate)、海豚交友数据集(Dolphins)等,以及UCI(the UC Irvine Machine Learning Repository)中的一些关系型数据集。实验结果表明,基于三支决策的聚类新思想不仅较好地解决了重叠聚类问题,而且在任意形状聚类、聚类数目确定和特殊点挖掘等方面也是有效的。
其他文献
随着资源爆炸式增长,搜索引擎已成为互联网用户获取信息的重要工具,传统搜索引擎多采用集中式架构,将搜索系统部署在一台服务器上,因此对服务器性能要求较高,且存在系统稳定
GNSS-R技术是GNSS领域当前的研究热点之一,该技术利用全球导航卫星系统的反射信号来进行反射面参数反演。通过研究反射信号功率中各分量在反射面的分布及变化规律来实现反射面
基于模板的机器翻译TBMT(Template-based machine translation)是从基于实例的翻译方法发展而来,利用双语翻译模板来实现从源语言到目标语言的自动翻译过程。它可以看作基于规
随着电子技术,物联网,云计算的发展和普及,无线传感器网络成为了当今研究的重点领域。它广泛地应用于医疗,军事,环保,生活等方方面面,而无线传感器网络的定位算法又是进一步研究传感
在21世纪这个网络信息时代,计算机网络技术的发展给新一代的网络(Next Generation Network,NGN)带来了新的发展,NGN以软件换技术为其核心技术,融合多种异构网络,构建一种可为
生物信息学研究生物数据的分析处理方法。生物信息学的发展过程是分子生物学与计算机技术、数学、信息学和工程领域不断交叉与融合的过程。分子生物学在分子层面关注生命活动
基于视频序列图像的目标分类识别,是实现智能监控的重要内容。它通过运动目标检测提取研究对象,并且对检索出来的运动对象进行特征提取与描述,分析出物体本身所具备的特征,以进行
随着高性能计算的发展和互联网的普及,数字内容(视频、图像等)通过各种方式更加容易地被篡改和分发。因此,为了保护已注册的数字图像免于非法使用,图像拷贝检测在版权保护中显得
随着工业体制改革的深化和国民经济的发展,对电能质量的要求越来越高电力负荷是保证电能质量的一个基本工具特别是对未来一天或几天的短期负荷预测显得特别重要。电力负荷预测是电力系统规划和研究的组要组成部分,也是电力系统经济运行的基础,其对电力系统和规划都极其重要。目前,关于电力负荷预测的方法不断涌现,但单一的模型应用一般只能局限在一定范围内,精度性较低。研究一种通用性好且预测精度较高的电力负荷预测模型对电