基于GridLOF孤立点挖掘算法的研究和改进

来源 :中山大学 | 被引量 : 0次 | 上传用户:zp283106190
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
在现实生活的各种领域中,经常会出现一些与数据集的一般行为或模型不一致的数据对象,这些对象称为孤立点,它们可能包含某些重要的隐藏信息。因此有必要对孤立点进行挖掘,对孤立点的识别就是对数据集小模式的研究。随着数据挖掘技术的迅速发展,孤立点检测算法研究已经成为数据挖掘研究领域中非常活跃的研究课题。 传统的孤立点检测算法——局部孤立因子(LOF)算法的时间复杂度比较高,达到O(kn<2>),k是给定的数据点邻居的数目,n是数据点的总数目。在LOF算法的基础上,有人提出基于网格的LOF算法(GridLOF算法),但是没有明确指出网格划分的方法,仅仅给出合理划分的理论证明,因此本算法无法实现。 针对LOF和GridLOF算法存在的缺陷,本文借鉴了GridLOF算法中的网格划分思想,提出了新的算法——基于网格的局部k-距离孤立因子算法。本算法的时间复杂度可以大大降低。本算法的创新点有: (1) 重新定义了相邻网格的概念; (2) 明确给出了一种网格划分的方法; (3) 给出了对处于区间边界的数据点的处理方法; (4) 使用关联容器存储网格的信息; (5) 提出了局部k-距离孤立因子的概念。 本文使用Visual C++6.0实现基于网格的局部k.距离孤立因子算法。并且在实验数据集上做了大量的对比实验来验证此算法的合理性和效率。实验结果表明,基于网格的局部k-距离孤立因子算法能够提高执行效率,并且在存储结构、孤立点检测效果等方面有一定的优越性。将此算法应用于分析财政系统的数据,可以发现财政收入、支出、增长率等方面的异常情况,为财政决策者做出决策提供了依据。基于网格的局部k-距离孤立因子算法也存在着缺陷:本算法对数据集有一定的要求,即数据点的分布要比较集中,如果数据点的分布比较分散,则本算法的时间复杂度可能会提高到O(kn<2>);本算法也会受到参数k的影响,不同的k值可能会造成不同的结果;本算法需要求出数据点之间的距离,因此可能不适合用于处理高维数据集;本算法只能处理数值型的数据,不能处理符号型的数据。针对上述不足,今后作者将继续对孤立点检测技术进行深入研究,努力改进和完善孤立点检测方法。
其他文献
基于人工智能判据(采用信号的机械特征分析方法)的自动诊断系统,可以解决人工诊断柴油机故障这个令人厌倦的耗时问题。阐述柴油机用自动诊断专家系统的开发和实施情况。此系
审视当前的语文教学,无论是阅读教学或是识字教学,也无论是公开课还是常态课,有一种现象不容忽视:课堂上写字指导已经被淡化,取而代之的是,课堂上书声琅琅,以读代讲,学生乐于
本文主要考虑采用迭代收缩阈值类算法来解决压缩感知理论中的信号重构问题.这类算法由于计算的简便性,可以用于解决大规模的信号重构问题.然而,这类算法的收敛速度缓慢.因此,Ami
本文考虑了一类多资产框架下动力学定价模型并研究其不动点的存在唯一性、渐近稳定区域以及发生的分岔现象. 第一章对基于互异信念投资者相互作用的资产定价理论的发展和概
新闻话题检测与追踪技术(TDT)是当前信息检索领域与自然语言处理领域的研究热点。TDT自1996年被首次提出以来,在英文领域已经取得了很大的进展。 然而,由于中文处理的复杂性
以商豆6号为研究对象,探讨了高产夏大豆品种干物质积累和氮磷钾吸收特点。结果表明:在3 784.5 kg.hm-2产量水平下,商豆6号干物质积累以结荚~鼓粒期最快,占总积累量的53.68%,日
请下载后查看,本文暂不支持在线获取查看简介。 Please download to view, this article does not support online access to view profile.
期刊
多值函数主要应用在复变函数以及流体力学中.上世纪四十年代,Evans曾指出极小容量曲面的传导位势是一个双值调和函数.1976年,Caffarelli证明了多值调和函数的Holder连续性.2006
请下载后查看,本文暂不支持在线获取查看简介。 Please download to view, this article does not support online access to view profile.
期刊
当代大学生的就业压力空前巨大,有效开展大学生职业规划生涯教育,加强大学生职业生涯规划指导,已成为当前高校对大学生就业能力培养重要而紧迫的任务.大学生职业生涯规划教育