论文部分内容阅读
随着网络的飞速发展,商务网站逐渐增多。如何根据用户的行为习惯,优化网站结构或主动地为用户提供一些个性化服务,成为了困扰网站管理者的主要难题,Web日志挖掘的出现为解决这一问题指明了新的方向。作为Web挖掘里的一个重要分支,Web日志挖掘已经成为当前研究的热点。Web日志挖掘是将传统数据挖掘技术运用到Web日志中,来发现用户访问站点的行为模式和兴趣爱好,以及分析站点的使用情况。本论文深入研究了从Web日志中挖掘用户频繁访问路径。首先,针对数据预处理进行了深入研究,其中在会话识别阶段引入了页面层次的概念,使页面浏览时间阈值的确定更加准确;随后对事务识别进行了改进,提出了IMFR算法,该算法将路径补全和事务识别合并为了一步,简化了数据的预处理操作。然后,作者深入研究了两类频繁路径挖掘算法,有候选集产生的算法和无候选集产生的算法。其中,重点研究了无候选集产生算法中的WAP算法,并在WAP算法基础上提出了一种改进算法NGCWAP,该算法通过前序遍历号和后序遍历号来跟踪候选序列分布在哪些子树中,从而避免了物理条件树的构建。最后,作者编程实现了一个B/S结构的Web日志挖掘原型系统,系统采用了改进的事务识别算法IMFR和频繁路径挖掘算法NGCWAP来发现用户的频繁访问路径。除此之外,该系统还可以发现一些常规模式,例如,最受欢迎的页面、用户来源等。论文对改进算法及挖掘系统进行了详细的测试,并对测试结果进行了较为详细的分析和总结。