基于Web日志的用户偏爱浏览路径研究

来源 :武汉理工大学 | 被引量 : 0次 | 上传用户:gaods
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
随着互联网技术、储存技术和计算能力的发展,越来越多的商业活动通过网络平台实现,网站在日常运营中积累了大量的用户点击流数据,为我们提供了很好的机会去分析和挖掘有价值的信息。本文将数据应用于挖掘用户的偏爱浏览路径,重构页面间的链接关系,优化网站提高用户访问体验,最终取得更好的市场竞争力。目前挖掘用户偏爱浏览路径比较好的算法有频繁偏爱路径法、页面价值-跳转偏爱度法、支持-兴趣度法等。频繁偏爱路径法将用户的浏览频度作为主要参考因素,忽略了用户的浏览兴趣。页面价值-跳转偏爱度法虽然将用户的浏览兴趣作为主要参考因素,但是在实际应用中对数据的要求很高。支持-兴趣度法虽然将用户的浏览兴趣作为主要参考因素且对数据要求不高,但是挖掘出的浏览路径没有过滤掉网站的主干路径。因此,本文提出权重矩阵与有效偏爱度算法改进了支持-兴趣度算法,削弱了主干路径对挖掘结果的影响。本文主要研究工作如下:(1)概述Web挖掘内容和发展现状,通过分析网站存在的问题得出挖掘用户偏爱浏览路径的现实意义。本文总结了当前挖掘用户偏爱浏览路径比较好的算法,得出其主要问题是算法在准确度、复杂度和运行效率上难以平衡。(2)针对Web日志原始数据不能直接用于挖掘用户偏爱浏览路径的问题,引入Web日志数据预处理方法。该方法删除了原始数据中与挖掘目的无关的属性和记录,并进行会话识别处理,找出用户的浏览序列。(3)针对挖掘用户偏爱浏览路径的核心问题,本文提出权重矩阵与有效偏爱度算法,通过对站点拓扑结构图加权,改进了基于支持-兴趣度算法挖掘用户的偏爱浏览路径,避免挖掘出站点拓扑结构图的主干路径。通过实例分析说明改进后的算法有效可行,并且结果比改进前的算法更能反映用户的真实浏览兴趣。(4)使用搜狗网的Web日志进行实验,结果说明改进后的算法过滤掉了主干路径,并且结果精确度比改进前高,但是引入权重矩阵使得算法执行时间比改进前高,即改进后的算法是以时间换取精确度。
其他文献
目的:研究回顾性质控数据分析在婴儿培养箱风险管理中的应用,降低婴儿培养箱使用风险。方法:用鱼骨图分析法对影响婴儿培养箱合格率的因素进行分析,然后运用数据统计学方法对
现金股利政策是企业对其获得的利润进行分配的方法之一,是一种财务管理方式,不仅仅均衡了企业的发展,也为股东带来了回报。适宜的现金股利政策可以对企业的未来发展、股东的权益以及投资者的投资信心带来积极的影响。当现金股利分配水平比较低甚至不进行分配时,会影响股东以及投资者的积极性,从而对股票的市价产生一定的影响。而当现金股利分配水平过高时,又会使得企业留存较少的净利润,从而削减了其经营以及再投资的筹码,不