论文部分内容阅读
随着网络规模的迅猛发展以及用户需求的膨胀,Internet已成为人们信息发布,娱乐和交流的媒体。尽管Internet提供大量的信息和搜索门户网站,但用户往往无法找到自己所需的内容。WEB站点的日志数据记录了浏览用户对此WEB站点访问时的大量路径信息,对这些信息的分析有利于网站设计人员掌握用户的爱好和习惯,网站设计人员可以用来对网站的结构进行优化和页面重组。更重要的是智能化站点能够通过历史日志数据自动对用户未来访问页面进行预测。 本文首先对WEB挖掘技术分类进行介绍,并针对WEB日志挖掘系统体系结构进行分析,重点介绍预处理过程的步骤及难点。其后将关联规则挖掘技术应用到日志事务会话中,介绍了传统的关联规则发现的Apriori挖掘算法,在对日志数据的特性分析的基础上提出类Apriori挖掘算法。 本文对类Apriori挖掘算法得到的频繁项集如何有效提取关联规则提出五种方法,通过试验对比,我们得出了最有效的方法。在实际应用中,如何从多个匹配的关联规则中选择合适的规则,本文提出两种匹配规则思想。 最后简单介绍聚类思想,提出基于密度的递归聚类应用到日志的挖掘算法。通过递归聚类算法找到几组相关页面集合,从而可能为推荐系统提供与当前用户访问会话序列符合的页组,推荐系统根据此页组预测可能访问的后继页面。