论文部分内容阅读
随着互联网技术、储存技术和计算能力的发展,越来越多的商业活动通过网络平台实现,网站在日常运营中积累了大量的用户点击流数据,为我们提供了很好的机会去分析和挖掘有价值的信息。本文将数据应用于挖掘用户的偏爱浏览路径,重构页面间的链接关系,优化网站提高用户访问体验,最终取得更好的市场竞争力。目前挖掘用户偏爱浏览路径比较好的算法有频繁偏爱路径法、页面价值-跳转偏爱度法、支持-兴趣度法等。频繁偏爱路径法将用户的浏览频度作为主要参考因素,忽略了用户的浏览兴趣。页面价值-跳转偏爱度法虽然将用户的浏览兴趣作为主要参考因素,但是在实际应用中对数据的要求很高。支持-兴趣度法虽然将用户的浏览兴趣作为主要参考因素且对数据要求不高,但是挖掘出的浏览路径没有过滤掉网站的主干路径。因此,本文提出权重矩阵与有效偏爱度算法改进了支持-兴趣度算法,削弱了主干路径对挖掘结果的影响。本文主要研究工作如下:(1)概述Web挖掘内容和发展现状,通过分析网站存在的问题得出挖掘用户偏爱浏览路径的现实意义。本文总结了当前挖掘用户偏爱浏览路径比较好的算法,得出其主要问题是算法在准确度、复杂度和运行效率上难以平衡。(2)针对Web日志原始数据不能直接用于挖掘用户偏爱浏览路径的问题,引入Web日志数据预处理方法。该方法删除了原始数据中与挖掘目的无关的属性和记录,并进行会话识别处理,找出用户的浏览序列。(3)针对挖掘用户偏爱浏览路径的核心问题,本文提出权重矩阵与有效偏爱度算法,通过对站点拓扑结构图加权,改进了基于支持-兴趣度算法挖掘用户的偏爱浏览路径,避免挖掘出站点拓扑结构图的主干路径。通过实例分析说明改进后的算法有效可行,并且结果比改进前的算法更能反映用户的真实浏览兴趣。(4)使用搜狗网的Web日志进行实验,结果说明改进后的算法过滤掉了主干路径,并且结果精确度比改进前高,但是引入权重矩阵使得算法执行时间比改进前高,即改进后的算法是以时间换取精确度。