分类数据离群点检测算法的研究与改进

来源 :厦门大学 厦门大学 | 被引量 : 0次 | 上传用户:netboy1
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
离群点检测是数据挖掘中重要的研究分支,用于识别某些特征显著区别于其他观测数据的对象。在实际应用如评估金融风险、检测结构的缺陷、侵入检测等领域中会出现的一些离群数据,它们往往预示了某些重要的信息。通过对检测出的离群数据进行分析,可以获取大量能用于预测和决策支持的有用的知识。因此,离群点检测是一个相当有意义的研究方向。  本文以离群点检测为研究背景,以提高分类数据离群点检测性能为主要目标,在介绍离群点相关的概念和主要检测方法的基础上,主要对基于加权频率和聚类、基于信息熵的半监督离群检测算法进行了深入研究并进行改进,具体工作如下:  1、分类数据集中含有多种属性,不同属性对数据对象的离群程度的影响是不同的。针对现有分类数据离群检测算法将属性视为同等重要的不足,提出基于加权频率的离群检测策略。根据属性对离群性的贡献程度赋予不同的权值,再结合数据的属性频率,计算数据对象的加权频率值。数据加权频率值的大小能够反应数据离群程度的大小。  2、针对基于频率的算法对多个频繁属性共同作用的离群点检测效果不佳的情况,通过对两种类型离群点进行定义,在加权频率离群检测策略的基础上,结合聚类算法提出基于加权频率聚类的离群检测算法。根据加权频率策略和聚类距离得到的数据离群程度的排序,构造得到最终的离群点数据集。该算法能够有效检测两种类型的离群点,从而提高离群检测率。  3、针对现有的大多数无监督分类数据离群点检测算法,误报率较高且精确率较低的不足进行改进,提出基于信息熵的半监督离群点检测算法,同时着重考虑训练集只有少量正例的特殊情况。结合半监督学习和改进的信息熵概念,使用正例(离群点)作为训练集剔除部分数据,在减小数据集规模的基础上再进行离群点检测,降低了算法复杂度并且提高了检测率。  实验结果表明,本文提出的改进算法都能提高离群点检测的检测率,且能扩展应用于分类大数据集,实验验证了算法的有效性。
其他文献
数字水印技术属于信息安全的范畴,是信息隐藏的一个分支。数字图像水印是数字水印技术研究的一个方面,具有极大的理论研究价值和应用前景,是目前学术研究的一个热点。本文首
细分曲面造型技术由于其在拓扑结构、数值稳定性和易于实现等方面的优势,近些年来逐渐成为计算机辅助几何设计(CAGD)的研究重点。网格细分采用递归思想,它实际上是一个网格序
敦煌研究是目前文物保护研究的热门领域。利用计算机技术,智能学习敦煌壁画,意义重大。本文研究面向高精度敦煌壁画的对象识别方法,研究怎样从一幅高精度壁画中识别各种壁画
传感器、嵌入式计算、网络和无线通信技术的进步,推动了无线传感器网络的产生和发展。无线传感器网络通过无线通信方式形成的一个多跳的自组织的网络系统,能够协作地实时监测
移动自组网(Mobile Ad-hoc NETworks,MANETs)是一种没有基础设施支持的移动无线网络,具有无中心、自组织、可快速部署、动态拓扑和多跳等特点。这些特点使它可以广泛地应用于
自碰撞检测是虚拟手术仿真中的重要问题,自碰撞检测的效率是影响虚拟仿真应用真实感和沉浸感的重要因素。本文对白碰撞检测算法进行了深入的研究,主要包括以下几个方面的内容
随着信息时代的发展,各种商业和科学数据库的数据量急剧增长,远远超过了人类目前已有的分析和理解能力。数据挖掘正是在这样的背景下产生的新的研究领域,主要目的是从数据集
近年来,人体运动分析成为图像处理和计算机视觉领域中一个热点课题,它在人体动画、游戏、虚拟现实和增强现实、人机交互、视频监控、体育运动分析、辅助临床医疗诊断等领域都
Hidden Web中包含了大量结构好、质量高的信息,而且随着信息化建设的加强,这些信息的数量一直在快速增加。虽然Hidden Web的信息量变得越来越大,但是现有搜索引擎对其的搜索
随着电信技术的日益成熟和电信市场竞争的逐步规范,电信运营商面对的竞争压力越来越大。为了在竞争中取胜,必须推出独具特色的、更具吸引力的业务吸引客户。电信运营商的经营