论文部分内容阅读
WWW无论是在访问量、大小还是在网站设计的复杂度上都以惊人的速度增长着,Web站点设计、Web服务设计和Web模式设计也都增大了难度,Web挖掘就是运用数据挖掘的思想来解决上面的各种问题。本篇论文给出了Web挖掘的体系结构,总结了Web挖掘的内容、任务、分类和Web日志挖掘的过程,在介绍了典型的数据预处理技术的基础上,实现了一种基于日志请求的参考文件的启发式会话识别算法;其次提出了改进的聚类挖掘算法,并与其他算法进行了比较,得出该算法更适用于大规模的稀疏分布的事务数据库的聚类分析;最后设计了一个Web挖掘原型系统,对模型构建做了简要的比较分析,应用聚类算法和关联规则算法对网站结构、用户访问等方面进行了分析。