基于聚类的离群点分析方法研究

来源 :重庆大学 | 被引量 : 0次 | 上传用户:jijianbing520
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
在实际应用中,数据集通常包含正常数据和离群数据,相对于正常数据而言,离群点的产生机制往往与之不相同,所以离群点可能蕴含着重要的信息,研究离群点的内涵知识具有重要学术意义和广泛应用价值。对离群数据的研究主要包括离群检测与离群分析两个方面,然而现有离群数据研究都主要集中于对离群点的检测,离群数据分析方面的研究成果较少。在不同的属性子空间中,离群点会表现出不同的离群特性,在大多数情况下,高维数据空间中的对象是否离群往往取决于这些对象在低维空间中的投影。对于离群点的形成,不同的属性起着不同的作用,需要根据这些属性子空间将离群点按离群性质进行分类,以揭示离群点的产生原因。针对这一问题,本文引入离群属性和离群簇等一系列概念,以现有离群挖掘技术为基础,重点对离群数据集的分类、离群性质、释义空间以及产生来源等进行分析,提出了一种利用离群分类来进行离群点分析的方法。具体来讲,本论文的主要研究工作如下:①对离群分析在离群挖掘中的理论意义和应用价值进行了介绍,并考察了离群检测技术和离群分析方法的国内外研究现状。②对各种离群挖掘技术的核心思想与各自的适用范围进行了分析,并总结出了这些技术所存在的优点和缺点,重点讨论了当前具有代表性的离群分析方法。③研究和比较现有的聚类分析方法,对部分聚类算法的改进方向进行了探讨,并详细介绍了聚类算法在离群挖掘中的应用。④通过分析离群点和聚类簇的相互关系,利用通过聚类算法检测出的离群点的特点,提出了一种基于聚类的离群点分析方法。论文中详细阐述了该方法的设计思想和主要内容,并提出了离群属性、平凡离群点、非平凡离群点和离群簇等相关概念。⑤以基于聚类的离群点分析方法为基础,设计并实现了基于聚类的离群点分类算法CBOC(Cluster-based Outlier Classification),在实验数据与真实数据集上验证算法的分类能力,并对算法的时间空间性能进行了分析。⑥最后合理总结了本文进行的所有工作,对全文工作中的优点和不足进行了分析,并对以后的工作提出了进一步研究目标。
其他文献
随着Web2.0应用的快速发展,越来越多由用户生成的内容成为了互联网上的一个重要信息来源,出现了许多社会媒体网络站点,如Flickr、Facebook和YouTube等网站。这些网站中存在大量
当前,指纹识别仍然是一个研究热点。经过国内外同行的多年努力,指纹识别在越来越多的领域得到了广泛的应用,但是指纹识别中仍然存在许多问题,如高安全应用问题,多模板集成问
数据流挖掘是当今的热点问题之一,具有广阔的发展前景。离群点检测是数据挖掘的基本任务之一,具有非常重要的研究价值,始终受到研究人员的重视。虽然传统静态数据集的离群点检测
随着计算机技术的快速发展,智能交通系统成为了世界各国的研究热点,它是解决交通问题的一个有效办法,为交通管理的发展指明了方向。智能交通系统将先进的信息技术以及计算机技术
随着信息化程度的不断提高,海量的数据存在于实际的应用中。但海量的数据中往往存在大量的冗余,所以,剔除这些冗余可以大大提高数据的处理能力。作为一种处理不精确、不一致
随着互联网的飞速发展,随着手机、数码相机、平板电脑等移动设备技术的不断进步,越来越多的图像、视频等媒体不断涌入互联网并且持续传播扩散。面对如此大规模的Web图像数据,
计算机技术的出现,使得医学领域发生了重大变化,十九世纪五十年代计算机技术就已经应用在病历管理上,其后是财务管理、病房监护等等。而计算机成像技术快速发展,使得图像处理技术
基于视觉的手势识别技术以自然而又直观的人手作为输入方式,提供给用户更加和谐、自然的交互方式,它一直是人机交互的重要研究课题,具有广阔的实际应用前景。近年来,随着计算
随着大规模网络开放课程的飞速发展,在线教育这一全新的学习形式开始被越来越多的人所接受。用户通过互联网可以学习到各种领域的知识和技能,但随着在线课程资源数量的增加以
在大数据时代背景下,电子商务、第三方支付等线上业务爆发式增长,随之而来的是日益猖獗的线上欺诈案件,在线欺诈检测技术作为企业风控能力的基石,通过对业务行为建模,更加精