论文部分内容阅读
在数据挖掘研究领域,异常点挖掘一直是学者和研究人员关注的热点问题,从一开始作为聚类分析的副产品,发展到各类挖掘算法层出不穷,已经成为数据挖掘领域的一个独立且重要的命题。随着金融、保险和电信行业对风险管理的要求加大,异常点挖掘在风险监测方面的优势得到了极大的发挥。另一方面,随着网络技术的发展、计算机计算能力的提高,异常点挖掘和其他数据挖掘技术一样得到了充分的发展。 以往对异常点挖掘的研究都是以挖掘算法作为对象,以数理统计、集合论、离散数学和计算机科学等手段进行研究,往往忽略了如何运用异常点挖掘,并与实际问题结合这一问题。随着异常点挖掘不断用于风险探测,如何把异常点挖掘的理论和实际的行业背景结合,成为了一个重要的课题。 本文首先简单回顾已有的数据挖掘生命周期模型以及异常点基本概念和挖掘算法。对国内外的研究现状作了说明,并解释了一些相关概念和专业术语。 然后将关注点放在异常点挖掘生命周期上,从七个方面描述了整个挖掘过程,在讨论中配以一个算例作为辅助说明。 其次本文实现了异常点挖掘最常用的两类基于距离的算法:DKP最近邻算法和基于LOF密度的算法。为课题研究提供了工具和算法实现上的准备。 最后,全文以一个实际课题为例,把前文研究内容贯穿于案例中,详细说明了异常点挖掘和证券行业结合解决客户交易异常侦测的全过程,并对挖掘结果进行了分析,提出相应的建议对策。从而使论文提出的观点兼具一定的理论意义和实践价值。