论文部分内容阅读
孤立点检测是数据挖掘的一个重要方面,因其独特的知识发现功能而得到较为深入的研究。孤立点检测算法已经在金融欺诈检测、网络入侵检测、生态系统失调、天气预报等风险控制领域得到了广泛的应用。但随着应用范围的不断扩大,传统的孤立点检测算法遇到了一些难以克服的障碍,算法效率不能适应大规模数据处理,算法的参数难以选择造成检测结果不稳定,算法不能适应高维数据的特性等。论文主要针对以上问题对孤立点检测技术进行了研究。论文首先详细介绍了传统的孤立点检测算法,并对它们进行了比较和分析,指出它们的不足之处,在此基础上提出基于平均密度的孤立点检测算法(ADOD),以减少用户对参数选择的困难;其次,为了解决高维数据对孤立点检测带来的困难,先提出基于有限比较的最大频繁项目集挖掘算法(LCMFI),再利用LCMFI算法对基于频繁模式的孤立点检测算法(FindFPOF)进行改进,提出基于加权最大频繁模式的孤立点检测算法(FindWMFPOF),该算法以最大频繁模式代替频繁模式计算频繁孤立因子(FPOF),降低了算法的运算规模,具有良好的检测效果。论文主要工作如下:1.对现有的孤立点检测算法进行了分析,指出它们共同存在的不足:算法对参数的选择缺乏自动化。2.提出基于平均密度的孤立点检测算法(ADOD)。用平均密度的概念重新定义孤立点度量,以一个新的视点来检测孤立点,并用实验验证ADOD算法有效性,不仅能在孤立点检测时减少用户对参数选择的困难,而且具有较好的检测效果。3.分析了高维数据的特点及其对传统孤立点检测方法的影响。比较和分析了现有高维孤立点检测算法,指出它们在算法效率上存在的不足。4.提出基于有限比较的最大频繁项目集挖掘算法(LCMFI),给出了相关定义和定理,并对算法的运行效率作了详细地分析和证明,LCMFI算法挖掘2-最大频繁项目集的时间复杂度为O(m·n~2)。该算法的提出为改进FindFPOF算法提供了理论基础。5.提出基于加权最大频繁模式的孤立点检测算法(FindWMFPOF)。该算法以最大频繁模式代替FindFPOF算法中的频繁模式,有效降低了数据的处理规模。实验结果表明,以LCMIF算法挖掘最大频繁模式,可使FindWMFPOF算法对高维数据的孤立点检测具有更好的可扩展性,并能有效的检测高维数据的孤立点。