高维孤立点检测算法研究

来源 :江苏大学 | 被引量 : 5次 | 上传用户:ggtand007
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
孤立点检测是数据挖掘的一个重要方面,因其独特的知识发现功能而得到较为深入的研究。孤立点检测算法已经在金融欺诈检测、网络入侵检测、生态系统失调、天气预报等风险控制领域得到了广泛的应用。但随着应用范围的不断扩大,传统的孤立点检测算法遇到了一些难以克服的障碍,算法效率不能适应大规模数据处理,算法的参数难以选择造成检测结果不稳定,算法不能适应高维数据的特性等。论文主要针对以上问题对孤立点检测技术进行了研究。论文首先详细介绍了传统的孤立点检测算法,并对它们进行了比较和分析,指出它们的不足之处,在此基础上提出基于平均密度的孤立点检测算法(ADOD),以减少用户对参数选择的困难;其次,为了解决高维数据对孤立点检测带来的困难,先提出基于有限比较的最大频繁项目集挖掘算法(LCMFI),再利用LCMFI算法对基于频繁模式的孤立点检测算法(FindFPOF)进行改进,提出基于加权最大频繁模式的孤立点检测算法(FindWMFPOF),该算法以最大频繁模式代替频繁模式计算频繁孤立因子(FPOF),降低了算法的运算规模,具有良好的检测效果。论文主要工作如下:1.对现有的孤立点检测算法进行了分析,指出它们共同存在的不足:算法对参数的选择缺乏自动化。2.提出基于平均密度的孤立点检测算法(ADOD)。用平均密度的概念重新定义孤立点度量,以一个新的视点来检测孤立点,并用实验验证ADOD算法有效性,不仅能在孤立点检测时减少用户对参数选择的困难,而且具有较好的检测效果。3.分析了高维数据的特点及其对传统孤立点检测方法的影响。比较和分析了现有高维孤立点检测算法,指出它们在算法效率上存在的不足。4.提出基于有限比较的最大频繁项目集挖掘算法(LCMFI),给出了相关定义和定理,并对算法的运行效率作了详细地分析和证明,LCMFI算法挖掘2-最大频繁项目集的时间复杂度为O(m·n~2)。该算法的提出为改进FindFPOF算法提供了理论基础。5.提出基于加权最大频繁模式的孤立点检测算法(FindWMFPOF)。该算法以最大频繁模式代替FindFPOF算法中的频繁模式,有效降低了数据的处理规模。实验结果表明,以LCMIF算法挖掘最大频繁模式,可使FindWMFPOF算法对高维数据的孤立点检测具有更好的可扩展性,并能有效的检测高维数据的孤立点。
其他文献
P2P网络以端到端的方式进行节点互联和文件共享,解决了传统Client-to-Server模式的单点失效和性能瓶颈问题,近年来在文件共享、多媒体传输、分布式计算、协同工作等领域获得
计算机系统中发现的安全漏洞的数量呈爆炸性的方式增长。目前,为了了解、处理这些安全事件,往往通过脆弱性库来了解脆弱性信息,使用工具对系统中存在的脆弱性进行探测和处理
定义和描述业务过程的工作流模型,是企业应用工作流管理技术的关键。办公自动化系统、企业MIS系统、客户关系管理(CRM)系统等都涉及到了企业业务过程的定义,这些业务过程如果完
Web程序可以动态生成网页,这使得Web应用充满不确定性。当用户向服务器提交一个动态请求时,Web应用根据服务器当前状态和用户提交的信息来生成网页,所以,对用户提交的同一个
当前,电信运营业务在中国从新兴走向成熟,电信企业为了满足越来越多的来自客户对于电信业务的需求,电信支撑系统从规模到复杂性都逐步扩大,伴随着对于收入保障的要求也越来越
图像变形算法很久前就被广泛关注,并且有过很多相关研究。图像变形技术在电影动画制作、图像编辑、用户接口、动作表情控制等多个领域有着广泛的应用。本论文结合项目需求为完
能够支持嵌入式系统资源复用、缩短嵌入式系统开发周期、提高嵌入式系统开发效率的嵌入式系统开发平台是嵌入式产品开发的有效工具。但嵌入式系统产品以应用为中心,不同的应用
本文首先对3G业务接入的现状以及存在的技术瓶颈进行了简单的描述,以此为背景引出综合业务接入网关(ISAG),紧接着简单介绍了ISAG应用到的关键技术——Parlay X WebService。
随着生物医学文献数量的急剧增长,各种各样的生物医学信息出现在生物医学研究者面前。这给生物医学研究者带来很沉重的负担,使他们很难迅速地从这些文献中找到需要的信息。为了
联邦运行支撑环境(RTI:Run-time Infrastructure,也称运行时间基础结构)是HLA(High Level Architecture,高层体系结构)接口规范的具体实现,它是基于HLA仿真的核心部件,也是HLA仿真