论文部分内容阅读
通过对Web日志进行挖掘,站点管理者可以发现用户的浏览模式,了解不同用户的兴趣和整个站点页面的访问情况,从而可以通过调整网站的逻辑组织结构来优化其拓扑结构。目前,一些用于从Web日志中挖掘用户访问模式的算法还存在很多缺陷,如:未考虑对页面的访问顺序;仅将访问频度作为聚类的依据;相似度度量时,只考虑”0”、”1”特征值间的差异,却忽略实际访问次数等重要因素。针对以上问题,本文提出两种改进的Web日志聚类算法,有效提高挖掘准确度。本文的主要工作分为以下几个方面。
首先,本文描述最长相同顺序路径系数.SOR、访问频率兴趣度-FP、以及访问时间兴趣度-TP等概念,从而设计综合访问兴趣度-CP计算模型,以此为基础,提出基于站点访问矩阵的频繁访问路径挖掘算法-FVPMA。算法的主要思想是:计算每两个页面之间的综合访问兴趣度,将其与综合访问兴趣度阈值进行比较,以此类推,得到频繁访问子路径2-项集。然后,对子路径集中的元素进行合并,最终得到频繁访问路径集。实验表明,FVPMA算法能较好地提高挖掘准确度。另外,将FVPMA算法作为MFLMA算法的理论依据与技术支持。
其次,本文描述Users最长公共访问路径系数-UPP、余弦相似度等概念,从而设计一种新颖的相似度度量模型,用于求取用户间、以及页面间的综合相似度。对其进一步研究,提出基于站点访问矩阵的多能Web日志挖掘算法.MFLMA。该算法摒弃以单一因素作为挖掘条件的缺陷,综合考虑多种与Web页面访问相关的因素。算法的主要思想是:计算每两个用户之间的综合相似度,以此类推,得到综合相似度矩阵,以该矩阵为基础,计算综合相似度阈值,从而获取2-项子用户集,然后,对子用户集中的元素进行合并,最终得到相似访问用户集;获取频繁访问路径集的过程与获取用户集的过程类似。MFLMA算法能较好地获取两个挖掘结果集,分别为相似访问用户集与频繁访问路径集。
最后,对实际挖掘过程进行探讨。以多能Web日志挖掘算法.MFLMA为核心算法,设计多能Web日志挖掘模型,从而实现多能Web日志挖掘系统.MFLMS。实验表明,以上多能Web日志挖掘模型可以有效提高挖掘的准确度。