论文部分内容阅读
随着Web网站规模的逐渐扩大,Web日志数据日益膨胀,对网站管理的任务变得越来越艰巨。如何从大量Web日志数据中提取出潜在有用的信息和知识,以便网站管理人员可以据此优化网站的结构,便利用户的访问,增加网站访问量;已经成为目前迫切需要解决的一个重要问题。因此设计与实现一个Web同志挖掘系统,对大量Web同志数据进行挖掘。
首先进行数据采集和预处理,识别原始的服务器同志格式并将其结构化,根据分析的目的删除“无用”的记录以进行数据净化。通过启发性规则,借助站点的拓扑结构识别用户,再进行会话识别,得到各个用户在不同的时刻的会话。对不完整的用户访问记录,借助站点的拓扑结构补充用户的访问路径,得到完整的用户会话。通过分析,确定最大向前路径,发现各个用户的频繁访问路径。
将K一中心点聚类思想引入标准遗传算法,给出一种改进的混合遗传聚类算法,从所有用户会话挖掘出各个不同的用户群;这种改进的算法能有效地提高标准遗传算法的局部搜索能力和收敛速度,得到较好的聚类效果。充分利用用户聚类结果,设计一种不需要生成候选集的快速关联规则算法,挖掘出各个用户群的URL页面关联规则,建立挖掘信息之间的相关联系。
在系统的实现过程中,实现了数据采集和预处理、用户访问路径识别和用户模式分析的功能。用某网站半个月的Web日志数据对系统进行测试与分析。