论文部分内容阅读
近年来,随着数据采集和存储技术的飞速发展,很多领域都积累了大量的数据。为了从数据中发现有价值的知识和规律,人们结合数据库、统计学及机器学习等技术,提出数据挖掘来解决这一难题。聚类分析技术是数据挖掘中的经典内容,是各学科研究的重要工具。本文对数据挖掘技术,尤其是聚类分析进行了较为系统地分析和研究,主要包括以下一些内容:(1)数据挖掘技术的概述。介绍了数据挖掘的基本概念、分类、主要功能、关键技术以及典型应用等等。(2)聚类分析的综述。本文对数据挖掘领域的聚类分析方法及代表算法进行了分析,提出了数据挖掘对聚类的典型要求,并基于这些要求对数据挖掘中常用的聚类算法作了比较,以便于人们更容易、更快速地选择一种适用于具体问题的聚类算法。(3)数据挖掘在实际项目中的应用。根据实际项目开发中遇到的问题,设计了日志分析系统。通过相关算法,对J2EE应用程序产生的日志进行分析,获得有价值的信息:通过日志分析系统提供的查询功能,开发人员可以快速的定位异常,提高效率,降低维护成本;通过日志分析系统可以发现“异常高发”的程序模块,还可以发现生产环境下用户操作与异常之间的关系,有助于找到某些隐藏的很深的bug,提高程序的稳定性;通过日志分析系统,可以在一定程度上实现系统健康预警的功能。日志分析系统初始版本已经在日常的技术支持中使用。本文从系统的体系结构、功能设计、模块划分、实现技术等方面进行了详细的分析和讨论,并展示了部分已经实现的功能。