论文部分内容阅读
对Internet上的海量数据进行挖掘,智能地为用户推荐其感兴趣的内容,是近年来国内外的研究热点,日志挖掘是其中应用前景较好的方法。 本文所做的主要工作:①介绍了数据挖掘的定义、基本过程、分类、主要方法和常用技术。②综述了Web挖掘的定义、过程、分类以及三类Web挖掘方法的基本思想和关键技术并将Web挖掘与Web信息检索技术作了比较。③研究了Web日志挖掘中的数据预处理方法以及基于最大前向引用的频繁遍历路径挖掘算法。④初步探讨了使用XML将异构性、半结构化的Web数据表示成结构化数据的方法。 本文的创新之处:尝试设计了一个基于Web日志挖掘的智能Web站点系统模型和其中的预测推荐算法。系统包括4个模块:管理接口、预处理模块、访问模式挖掘模块、智能推荐模块。拟达到的主要功能是:实时监测用户的访问行为,根据从日志中挖掘出的频繁遍历路径,动态地为其推荐匹配度最高的兴趣页面,并预送到用户的缓存中,以节省用户的访问时间和费用,实现既可以智能地获取信息,又能够提高系统性能的目的。整个挖掘、推荐和预送过程对用户透明,通过管理接口可以对系统进行灵活的参数设置和控制,使其具有较好的适应性。