重叠聚类和属性图聚类算法研究

来源 :哈尔滨工业大学 | 被引量 : 0次 | 上传用户:huangshjing
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
现实生活中有大量事物可以建模成图数据结构,因此,对于图数据的数据挖掘有很广泛的应用领域和很重要的应用价值。聚类是数据挖掘中十分重要的方法之一,因此,图数据中的聚类问题被人们很自然地提出,并已做了大量深入的研究工作。本文针对图聚类问题中的两个问题,提出相应的改进算法:传统的聚类要求不同的分组之间不能有公共的重叠部分,而这显然与现实情况相冲突。以人际关系网络为例,每个人都属于不同的社交圈子,比如同事圈子、朋友圈子等,聚类时显然不能强行将这个人划分入唯一的一个圈子,因此需要圈子之间允许重叠。对此,有人提出了图的重叠聚类算法。基于边聚类的方法可以很好的解决重叠聚类的问题,该方法将边作为聚类对象,对边进行聚类,结果再转化为基于节点的聚类。在该算法的思想上,本文提出将边转化为重边,利用图的重叠聚类算法对边进行聚类,目的在于得到更精确的聚类结构。所提出的算法在真实数据上的实验表明,该算法可以得到很好的聚类结果。更一般的图数据结构不仅包括拓扑结构信息,而且节点(和/或边)可以携带用于描述自身性质的属性标签,这种更一般形式的图称为属性图。由于从真实生活中提取到的数据可以组织成属性图的形式,这种对事物的表达更加精确,因此属性图的应用十分广泛,在属性图上进行数据挖掘可以得到更精确或更有趣的结果。本文针对属性图的聚类问题,利用节点的属性信息为每条边赋权,提出赋权过程的具体算法,并利用已有的带权图聚类算法对属性图进行聚类。算法中采用EM算法对属性的权重进行学习,得到属性权重矩阵。实验表明,该算法优于当前最新的算法。
其他文献
伴随着互联网时代快速发展的节奏,基于web开发的应用程序也越来越成熟,技术也越来越复杂。由于web应用丰富的功能特性,以及便于通过互联网对信息进行比较、处理、传播的能力,
多Agent之间按照约定的协议进行通信和协调,使得整个系统成为一个性能优越的整体,可以解决单个Agent难以解决的问题。然而由于各个Agent所处平台和拥有知识的不同,以及通信消
微博媒体拥有大量的微博用户,用户间相互交流、发布、分享、传播信息,生成大量的UGC(User Generating Content)信息。用户为了找到感兴趣的微博信息需要花费大量的时间。因此,如何
室外定位技术由于有着GPS的帮助,已经非常成熟和准确了。但是在室内中,由于环境问题使得GPS并不是任何时候都可以使用。而且室内定位追踪是立体的,所以传统的GPS坐标并不能很
实时系统是计算机科学的一个重要领域,这类系统目前广泛的应用于生产生活中。随着多核/多处理器系统在实时应用中的日益普及,多处理器实时系统的研究成为当前的热点。可调度
作为目前信息检索领域十分有效的检索模型,基于语言模型的检索方法开辟了一个很有潜力同时也十分具有挑战的方向。与传统检索模型相比,以语言模型为基础的检索方法不仅具有良
随着近年来web2.0时代的到来和飞速发展,博客作为一项重要的互联网服务也一度出现了爆炸式增长,随着信息量的增大也带来了查找困难的问题。为解决这一问题,主要针对博客圈的检
联合补充及配送是解决供应链中产品在供应商、仓库和零售商之间调配问题的一种重要方式。随着生产力迅速的发展,人们对商品的需求也随之提高,市场环境中诸多因素都会影响到产品的运输调度。例如,当产品的需求率不确定时,会导致供应商在补充产品时的订购成本发生变化、给零售商配送时所产生的等待成本也变得不确定;当供应商在考虑联合补充中个人的补充成本以及均摊费用时,会以自身利益为前提,这时就需要通过博弈的方式来得到一
随着隐私保护意识的提高,人们越来越重视发布数据的隐私泄露问题。为了使隐私信息尽可能少地被泄露,研究人员提出各种隐私保护手段,不确定性的k-匿名隐私保护模型已经成为数
伴随着用户个性化需求的日渐增多,以及云计算技术的发展,云制造理论得到了发展和重视。基于双边客户资源整合的智慧服务平台是采用了云制造服务模式的应用平台,本课题的研究正是