论文部分内容阅读
WWW上用户的访问路径信息会被记录在WEB服务器的日志记录中,分析这些日志并挖掘出用户的主要行为模式,可以提取出WEB网站被频繁访问的主干部分。本文首先将原始日志信息整理成目标页前向访问路径集TUPD(Target Pages User Forward Access Path Dataset),然后在TUPD上生成加权网站结构多维树WWSSMT(Weighted WebSite Structure Multi-Tree),最后引入决策频度阀值S,删除所有WWSSMT中weight〈S的子结点分支,最终实现