论文部分内容阅读
随着因特网的高速发展,人们的生活已经已经与其密不可分,因特网已经成为人们获取信息重要的手段。目前,企业网站,购物网站,社交网站浏览量越来越多,用户在网站遗留的记录也越来越多,因此网络服务器端存储了海量的用户数据。面对如此宝贵的资源,如何分析蕴藏在其中的信息和知识,挖掘用户行为并加以有效利用,是当前互联网企业的最主要的需求之一。通过对Web日志和用户行为的分析,可以挖掘出隐藏在其之后的用户访问规律,从而解决上述问题。本文对已有的Web数据挖掘模型及算法进行分析总结,提出一种基于时间分片的用户偏爱浏览路径算法。该算法依据用户访问网站时间,将用户访问的日志记录转换成为对应的月份、星期、时刻矩阵,并把这月份、星期、时刻矩阵相加,根据调节三个矩阵的权重得到一个最终的平均矩阵,把这个平均矩阵导入到现有的偏爱浏览路径算法之中,得到用户偏爱访问路径。实验数据的测试仿真结果表明,本文提出的算法能够根据不同的矩阵权重参数获得不同的偏爱访问路径结果,在结果中剔除与当前时间分片不符合的访问路径,提高了精确率。最后,本文依据Web日志挖掘的过程模型和西祠胡同社区网站的需求分析,构建了基于时间分片的用户偏爱浏览路径算法的数据挖掘原型系统。测试结果表明,该系统能够为用户提供较高精确率的浏览路径。