论文部分内容阅读
随着Internet的普及和WWW的迅猛发展,Web信息遍及各个领域,只有凭借Web挖掘技术才能更好的在网上搜索出有价值的信息,更好的为人类服务。 本文首先介绍了Web挖掘的基本概念、分类及目前的研究现状,Web挖掘一般分为Web内容挖掘、Web结构挖掘与Web日志挖掘三类。本文重点讨论Web日志挖掘,即通过分析Web服务器上的日志文件发现用户访问站点的频繁浏览模式。在介绍日志挖掘的基础上,结合现有的Web服务概念,重点介绍了如何将Web日志挖掘软件做成Web服务。文中着重给出了Web挖掘服务的体系结构、Web日志挖掘预处理模块服务化的具体实现以及实现过程中遇到的问题。本文还详细介绍了用户频繁遍历模式挖掘的算法,并给出了无候选模式频繁模式挖掘算法WAP-Mine的实现。最后作者根据目前的发展状况,提出一些数据挖掘、web挖掘技术未来的研究方向。