论文部分内容阅读
Web日志挖掘通过对日志记录的挖掘,发现用户访问页面的模式,从而进一步分析和研究日志记录中的规律,以期改进站点的性能和组织结构,提高用户查找信息的质量和效率。
Web日志挖掘数据预处理的对象是原始的日志文件中包含的数据,其中不完整的、冗余的、错误的数据需要进行处理。本文将针对数据预处理过程中涉及到的关键问题和技术进行详细的剖析和论述,提出了一个数据预处理模型。
关联规则挖掘是Web日志挖掘的一个重要的关键技术,它可以发现网络日志访问记录中隐含的相互关系。本文分析了经典频繁项集挖掘算法—Apriori算法,针对该算法中存在的效率瓶颈问题,提出了改进的挖掘算法-M2 Apriori(Matrix2 Apriori)算法,并实现了该算法。改进后的算法通过频繁1-项集生成矩阵的转置M与矩阵M相乘来获得频繁2-项集,从而减少了Apriori算法生成频繁2-项集的时间开销。理论和实验证明,改进的算法具有良好的性能。
本文设计了一个基于关联规则的Web日志挖掘系统,讨论了Web日志挖掘中的关键技术:数据准备、模式发现和模式分析,详细介绍了该系统的体系结构、各模块的功能、挖掘流程、采用的算法,详细地分析了预处理阶段的各项任务。