论文部分内容阅读
Web日志挖掘旨在对Web服务器上的用户访问日志数据使用数据挖掘技术,发掘隐藏在日志数据背后的规律和模式,从大量的Web日志信息中提取出人们需要的有用知识,进而改善Web站点结构,提高站点的服务质量,改进站点性能,向用户提供个性化的服务。本文在分析国内外研究现状和发展趋势的基础上重点研究了Web日志挖掘中的用户聚类、关联规则算法,频繁访问路径挖掘算法,在前人的基础上对算法进行了一些改进,并在VC6.0平台上设计和实现了一个Web日志挖掘原型系统。在用户聚类方面,以用户的页面访问时间作为兴趣度量的标准,利用模糊聚类的方法对UserID-URL关联矩阵进行聚类。在关联规则方面,提出了以扫描项数据库的方法来代替扫描事务数据库的方法,并针对Web日志的特点删除了首页及二级页面项,显著的提高了算法的运行效率,快速的找到了频繁访问页面集合。在频繁访问路径挖掘方面,在MFR的基础上,实现了类似于Apirori的Sim_Apriori算法,并提出了基于多叉树的M_tree挖掘算法,有效的提高了用户频繁访问路径的挖掘速度。最后总结了本文的研究成果,并提出将来进一步的研究工作。