基于Web数据挖掘的网页优化设计应用研究

被引量 : 0次 | 上传用户:bassjhnn
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
近年来,随着Intemet在流量、规模和复杂度等方面的飞速增长,web已成为一个巨大的、分布广泛的、全球性的信息服务中心。在web给人们带来丰富信息和极大便利的同时,也随之产生了一些急需解决的问题,个性化的信息服务便是其中之一。直接或间接的解决这个问题的途径之一就是将web日志挖掘技术应用在网站个性化服务中。通过对web日志数据挖掘,可以帮助我们更好地发现用户频繁访问路径和进行个性化页面推荐等,这对于为用户提供个性化服务是非常关键的。WWW上数据资源的多样性增加了用户寻找有用的信息的难度,如何从海量信息中挖掘隐含的、用户感兴趣的模式是一个重要且有意义的问题。Web日志挖掘就是通过使用数据挖掘技术将对用户和服务器之间在通信过程中产生的大量数据进行挖掘,以发现新颖的、有用的知识,可以得到用户访问页面时的频繁关系和行为模式,通过此可以发现用户的偏好和访问习惯,从而优化Web站点功能及页面间的超链接结构,提高网站的服务质量并改善性能。通过对用户访问的行为分析,以向用户推荐能在最短时间内获取访问路径。首先根据建立的个性化网站模型,综合考虑用户访问网页的停留时间和存取次数,提出基于用户偏好的度量计算方法,其次在此基础上提出一种基于向量内积的web关联规则挖掘算法WARMVI,通过该算法找出与其关联度高的网页,推荐给用户,同时考虑了用户个人的兴趣,实验仿真中通过对用户访问模式的分析,给出网页推荐策略,使用户能提高访问效率。论文的研究工作包括以下几个方面:(1)深入研究了Web挖掘的定义、基本原理、方法和分类,并从四个方面详述了web日志挖掘中的应用。(2)分析了web日志挖掘的特点和难点,并对网站的个性化、单个用户访问模式和群体对页面的浏览模式行为进行了具体分析。(3)描述了web日志挖掘的过程,分别分析了Web日志数据预处理的四个阶段,并给出了相应的改进算法:基于纵横向缩减的数据清洗方法、面向IP地址的用户识别方法、基于时间阈值的会话识别方法和基于深度优先方法的事务识别,并给出了相应的改进算法。(4)通过停留时间和存取次数来综合衡量用户对该网页的偏好程度,并建立了用户对网页的偏好程度模型,在此基础上提出了一种基于向量内积的Web关联规则挖掘算法,该算法能有效地挖掘用户群的访问模式,具有较好的网页推荐效果,减少了搜索相关页面的时间。(5)为验证web关联规则挖掘方法的正确性,设计了一个实验系统,包括web服务器、访问记录数据库、访问记录组成,系统应具备数据采集、数据预处理、模式挖掘、挖掘结果评价等功能。通过对Web的挖掘,我们就可以从Web页面中提取所需的知识,通过对用户访问行为、频度、内容的分析,获取关于用户访问行为的兴趣模式,用以改进Web服务设计。
其他文献
勃拉姆斯.约翰内斯(Brahms.Johannes)是德国著名的作曲家,钢琴家(1833-1897)。他的一生中创作了大量的作品,这些作品的体材丰富多彩,包括交响曲,室内乐,钢琴曲和合唱作品等等
近年来,大学生自杀已成为一个备受关注的社会现象。文章以近五年某省市高校大学生自杀数据为例,描述大学生自杀的现状,探索大学生自杀原因及风险因素。并通过理论探讨对预防
目的血栓抽吸术自问世以来一度受到临床医生关注,指南不断的调整使部分临床医生对其应用产生质疑。现有大型随机对照研究表明:急诊PCI时常规血栓抽吸对急性心肌梗死患者的预
组织部门作为一个公共组织,同其他公共组织一样,在组织发展的过程中形成了独特的组工文化。研究分析组工文化建设,对于不断提升组工干部的素质能力、全面推进组织部门整体和
"壮汉语比较"课程是普通高校壮语言文学类专业的一门基础课。目前"壮汉语比较"课程的课时分布少,教学内容则庞杂、涉及面广、概念抽象、理论性强,教师和学生的负担都很重。根据以
棋牌游戏一般是将棋类游戏与牌类游戏并称而得。由于其玩法众多,具有非常坚实的群众基础。因而其与互联网一旦联手,产生出了让世人震惊的网络现象之一:一夜之间红遍大江南北。
随着我国金融体制改革步伐的加快和加入WTO后外资银行陆续进入中国市场,商业银行的市场竞争日趋激烈,生存环境面临空前的挑战。商业银行为了谋求发展己经把利润的增长点瞄向
进入新世纪,无论是企业还是政府组织部门都面临着越来越多的挑战。信息爆炸,资源匮乏;网络化的高速发展,电子政务等无不改变传统组织权力部门的管理方式与效率;学习型组织已经