论文部分内容阅读
近年来,随着Intemet在流量、规模和复杂度等方面的飞速增长,web已成为一个巨大的、分布广泛的、全球性的信息服务中心。在web给人们带来丰富信息和极大便利的同时,也随之产生了一些急需解决的问题,个性化的信息服务便是其中之一。直接或间接的解决这个问题的途径之一就是将web日志挖掘技术应用在网站个性化服务中。通过对web日志数据挖掘,可以帮助我们更好地发现用户频繁访问路径和进行个性化页面推荐等,这对于为用户提供个性化服务是非常关键的。WWW上数据资源的多样性增加了用户寻找有用的信息的难度,如何从海量信息中挖掘隐含的、用户感兴趣的模式是一个重要且有意义的问题。Web日志挖掘就是通过使用数据挖掘技术将对用户和服务器之间在通信过程中产生的大量数据进行挖掘,以发现新颖的、有用的知识,可以得到用户访问页面时的频繁关系和行为模式,通过此可以发现用户的偏好和访问习惯,从而优化Web站点功能及页面间的超链接结构,提高网站的服务质量并改善性能。通过对用户访问的行为分析,以向用户推荐能在最短时间内获取访问路径。首先根据建立的个性化网站模型,综合考虑用户访问网页的停留时间和存取次数,提出基于用户偏好的度量计算方法,其次在此基础上提出一种基于向量内积的web关联规则挖掘算法WARMVI,通过该算法找出与其关联度高的网页,推荐给用户,同时考虑了用户个人的兴趣,实验仿真中通过对用户访问模式的分析,给出网页推荐策略,使用户能提高访问效率。论文的研究工作包括以下几个方面:(1)深入研究了Web挖掘的定义、基本原理、方法和分类,并从四个方面详述了web日志挖掘中的应用。(2)分析了web日志挖掘的特点和难点,并对网站的个性化、单个用户访问模式和群体对页面的浏览模式行为进行了具体分析。(3)描述了web日志挖掘的过程,分别分析了Web日志数据预处理的四个阶段,并给出了相应的改进算法:基于纵横向缩减的数据清洗方法、面向IP地址的用户识别方法、基于时间阈值的会话识别方法和基于深度优先方法的事务识别,并给出了相应的改进算法。(4)通过停留时间和存取次数来综合衡量用户对该网页的偏好程度,并建立了用户对网页的偏好程度模型,在此基础上提出了一种基于向量内积的Web关联规则挖掘算法,该算法能有效地挖掘用户群的访问模式,具有较好的网页推荐效果,减少了搜索相关页面的时间。(5)为验证web关联规则挖掘方法的正确性,设计了一个实验系统,包括web服务器、访问记录数据库、访问记录组成,系统应具备数据采集、数据预处理、模式挖掘、挖掘结果评价等功能。通过对Web的挖掘,我们就可以从Web页面中提取所需的知识,通过对用户访问行为、频度、内容的分析,获取关于用户访问行为的兴趣模式,用以改进Web服务设计。