基于站点访问矩阵的Web日志聚类方法分析与改进

来源 :江苏大学 | 被引量 : 0次 | 上传用户：lalalalalaaa

【摘要】

：

通过对Web日志进行挖掘,站点管理者可以发现用户的浏览模式,了解不同用户的兴趣和整个站点页面的访问情况,从而可以通过调整网站的逻辑组织结构来优化其拓扑结构。目前,一些

【作者】

：

姜自雷

【机构】

：

江苏大学

【出处】

：

江苏大学

【发表日期】

：

2011年期

【关键词】

：

Web日志挖掘余弦相似度站点访问矩阵浏览模式最长相同顺序路径系数

下载到本地 , 更方便阅读

下载此文赞助VIP

声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架

论文部分内容阅读

通过对Web日志进行挖掘,站点管理者可以发现用户的浏览模式,了解不同用户的兴趣和整个站点页面的访问情况,从而可以通过调整网站的逻辑组织结构来优化其拓扑结构。目前,一些用于从Web日志中挖掘用户访问模式的算法还存在很多缺陷,如:未考虑对页面的访问顺序；仅将访问频度作为聚类的依据；相似度度量时,只考虑”0”、”1”特征值间的差异,却忽略实际访问次数等重要因素。针对以上问题,本文提出两种改进的Web日志聚类算法,有效提高挖掘准确度。本文的主要工作分为以下几个方面。　　首先,本文描述最长相同顺序路径系数.SOR、访问频率兴趣度-FP、以及访问时间兴趣度-TP等概念,从而设计综合访问兴趣度-CP计算模型,以此为基础,提出基于站点访问矩阵的频繁访问路径挖掘算法-FVPMA。算法的主要思想是:计算每两个页面之间的综合访问兴趣度,将其与综合访问兴趣度阈值进行比较,以此类推,得到频繁访问子路径2-项集。然后,对子路径集中的元素进行合并,最终得到频繁访问路径集。实验表明,FVPMA算法能较好地提高挖掘准确度。另外,将FVPMA算法作为MFLMA算法的理论依据与技术支持。　　其次,本文描述Users最长公共访问路径系数-UPP、余弦相似度等概念,从而设计一种新颖的相似度度量模型,用于求取用户间、以及页面间的综合相似度。对其进一步研究,提出基于站点访问矩阵的多能Web日志挖掘算法.MFLMA。该算法摒弃以单一因素作为挖掘条件的缺陷,综合考虑多种与Web页面访问相关的因素。算法的主要思想是:计算每两个用户之间的综合相似度,以此类推,得到综合相似度矩阵,以该矩阵为基础,计算综合相似度阈值,从而获取2-项子用户集,然后,对子用户集中的元素进行合并,最终得到相似访问用户集；获取频繁访问路径集的过程与获取用户集的过程类似。MFLMA算法能较好地获取两个挖掘结果集,分别为相似访问用户集与频繁访问路径集。　　最后,对实际挖掘过程进行探讨。以多能Web日志挖掘算法.MFLMA为核心算法,设计多能Web日志挖掘模型,从而实现多能Web日志挖掘系统.MFLMS。实验表明,以上多能Web日志挖掘模型可以有效提高挖掘的准确度。

其他文献

基于TPM的可信网络建模与实现

当前网络安全问题日益突出,网络与信息安全面临严峻的挑战。传统的安全系统主要由防火墙、筑高墙、防外攻等手段组成,其不能从根本上解决网络安全问题。而大多数的安全问题是

学位

可信计算可信网络网络安全层次结构服务器

基于笔画内容的视频检索方法研究

随着互联网技术的迅猛发展,数码产品的普及以及存储器容量的提升,视频数据量呈现出指数级增长,如何对海量视频数据进行有效的检索已经成为一个亟待解决的问题,于是基于内容的

学位

文本检测动态形态学蚁群算法文本分割字符识别视频检索

基于Mesh的P2P实时流媒体管理协议的研究

摘要：目前P2P流媒体技术已经成为互联网上应用最广的流媒体应用的技术。基于P2P技术的流媒体业务也因此迅速发展,使得业务类型和流媒体用户大量增多,使得用户管理、业务管理和

学位

P2P流媒体用户聚类智能节目单节目导航用户贡献

基于IEEE802.11e MAC层QsS机制的研究与改进

数据通信的发展越来越趋向于无线化,但是无线网络中,有限的带宽资源以及复杂多变的信道特性,限制了视频和音频等多媒体实时业务服务质量。在2005年底出台的IEEE802.11e是传统

学位

数据通信无线网络IEEE802.11e标准MMAC层增强机制信道接入

个性化搜索中的用户兴趣建模技术研究

随着网络技术的迅速发展，互联网上的信息量呈几何级数的增长。对于不同背景和不同兴趣爱好的人，要从浩瀚的信息海洋中找到其需要的信息，是一项较大的挑战，个性化的信息检索系统满

学位

用户兴趣建模加权语义网有效信息兴趣偏移个性化搜索

区分服务环境下的模糊拥塞控制算法研究

随着互联网规模的急剧膨胀以及互联网新业务的大量涌现,使得网络拥塞不可避免。在网络研究领域,拥塞控制已经引起了越来越多研究人员的关注。路由器中采用主动队列管理(AQM,A

学位

网络拥塞区分服务模糊控制主动队列管理分享指数

基于三角不等式的XML文档相对密度聚类

随着互联网技术迅猛发展,XML文档由于其自身的自描述性、半结构化、可扩展性等特点,已经成为当今网络时代的信息载体与交换方式,一个高效、快速的XML文档聚类机制将会极大缩

学位

XML文档数据查询文档聚类软件设计

基于激励机制的对等网络搜索技术研究

对等网络(P2P Network)技术发展十分迅速,各种基于对等网络技术的应用软件层出不穷,已经广泛应用到文件共享,分布式计算,边界服务等各个方面。据德国互联网调研机构ipoque称,

学位

对等网络搜索激励机制Gnutella

基于WSRF的多自治域网格服务模型的研究与实现

随着互联网和信息服务技术的高速发展,不同信息系统之间的互联互通,乃至整合集成已经成为一种迫切的需求,网格技术是解决这一需求非常有效的手段。网格技术提供了一个架构平

学位

网格服务多自治域WSRFCaslims项目

用户界面设计中任务模型到抽象用户界面转换的研究

用户界面是软件系统的重要组成部分，占用了软件系统大量的开发时间。加之，信息技术的不断发展，以及计算机在人们的日常生活、工作与科研活动中的广泛应用，人们对用户界面的要求也

学位

用户界面任务模型抽象用户界面模型任务元模型抽象用户界面元模型

基于站点访问矩阵的Web日志聚类方法分析与改进

其他学术论文