基于站点访问矩阵的Web日志聚类方法分析与改进

来源 :江苏大学 | 被引量 : 0次 | 上传用户:lalalalalaaa
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
通过对Web日志进行挖掘,站点管理者可以发现用户的浏览模式,了解不同用户的兴趣和整个站点页面的访问情况,从而可以通过调整网站的逻辑组织结构来优化其拓扑结构。目前,一些用于从Web日志中挖掘用户访问模式的算法还存在很多缺陷,如:未考虑对页面的访问顺序;仅将访问频度作为聚类的依据;相似度度量时,只考虑”0”、”1”特征值间的差异,却忽略实际访问次数等重要因素。针对以上问题,本文提出两种改进的Web日志聚类算法,有效提高挖掘准确度。本文的主要工作分为以下几个方面。   首先,本文描述最长相同顺序路径系数.SOR、访问频率兴趣度-FP、以及访问时间兴趣度-TP等概念,从而设计综合访问兴趣度-CP计算模型,以此为基础,提出基于站点访问矩阵的频繁访问路径挖掘算法-FVPMA。算法的主要思想是:计算每两个页面之间的综合访问兴趣度,将其与综合访问兴趣度阈值进行比较,以此类推,得到频繁访问子路径2-项集。然后,对子路径集中的元素进行合并,最终得到频繁访问路径集。实验表明,FVPMA算法能较好地提高挖掘准确度。另外,将FVPMA算法作为MFLMA算法的理论依据与技术支持。   其次,本文描述Users最长公共访问路径系数-UPP、余弦相似度等概念,从而设计一种新颖的相似度度量模型,用于求取用户间、以及页面间的综合相似度。对其进一步研究,提出基于站点访问矩阵的多能Web日志挖掘算法.MFLMA。该算法摒弃以单一因素作为挖掘条件的缺陷,综合考虑多种与Web页面访问相关的因素。算法的主要思想是:计算每两个用户之间的综合相似度,以此类推,得到综合相似度矩阵,以该矩阵为基础,计算综合相似度阈值,从而获取2-项子用户集,然后,对子用户集中的元素进行合并,最终得到相似访问用户集;获取频繁访问路径集的过程与获取用户集的过程类似。MFLMA算法能较好地获取两个挖掘结果集,分别为相似访问用户集与频繁访问路径集。   最后,对实际挖掘过程进行探讨。以多能Web日志挖掘算法.MFLMA为核心算法,设计多能Web日志挖掘模型,从而实现多能Web日志挖掘系统.MFLMS。实验表明,以上多能Web日志挖掘模型可以有效提高挖掘的准确度。
其他文献
当前网络安全问题日益突出,网络与信息安全面临严峻的挑战。传统的安全系统主要由防火墙、筑高墙、防外攻等手段组成,其不能从根本上解决网络安全问题。而大多数的安全问题是
随着互联网技术的迅猛发展,数码产品的普及以及存储器容量的提升,视频数据量呈现出指数级增长,如何对海量视频数据进行有效的检索已经成为一个亟待解决的问题,于是基于内容的
摘要:目前P2P流媒体技术已经成为互联网上应用最广的流媒体应用的技术。基于P2P技术的流媒体业务也因此迅速发展,使得业务类型和流媒体用户大量增多,使得用户管理、业务管理和
数据通信的发展越来越趋向于无线化,但是无线网络中,有限的带宽资源以及复杂多变的信道特性,限制了视频和音频等多媒体实时业务服务质量。在2005年底出台的IEEE802.11e是传统
随着网络技术的迅速发展,互联网上的信息量呈几何级数的增长。对于不同背景和不同兴趣爱好的人,要从浩瀚的信息海洋中找到其需要的信息,是一项较大的挑战,个性化的信息检索系统满
随着互联网规模的急剧膨胀以及互联网新业务的大量涌现,使得网络拥塞不可避免。在网络研究领域,拥塞控制已经引起了越来越多研究人员的关注。路由器中采用主动队列管理(AQM,A
随着互联网技术迅猛发展,XML文档由于其自身的自描述性、半结构化、可扩展性等特点,已经成为当今网络时代的信息载体与交换方式,一个高效、快速的XML文档聚类机制将会极大缩
对等网络(P2P Network)技术发展十分迅速,各种基于对等网络技术的应用软件层出不穷,已经广泛应用到文件共享,分布式计算,边界服务等各个方面。据德国互联网调研机构ipoque称,
随着互联网和信息服务技术的高速发展,不同信息系统之间的互联互通,乃至整合集成已经成为一种迫切的需求,网格技术是解决这一需求非常有效的手段。网格技术提供了一个架构平
用户界面是软件系统的重要组成部分,占用了软件系统大量的开发时间。加之,信息技术的不断发展,以及计算机在人们的日常生活、工作与科研活动中的广泛应用,人们对用户界面的要求也