Web日志挖掘系统的设计与实现

来源 :华中科技大学 | 被引量 : 0次 | 上传用户：wenlingqiang6268047

【摘要】

：

随着Web网站规模的逐渐扩大，Web日志数据日益膨胀，对网站管理的任务变得越来越艰巨。如何从大量Web日志数据中提取出潜在有用的信息和知识，以便网站管理人员可以据此优化网站的

【作者】

：

唐西西

【机构】

：

华中科技大学

【出处】

：

华中科技大学

【发表日期】

：

2006年期

【关键词】

：

日志数据 K-中心点聚类算法局部搜索关联规则遗传算法

下载到本地 , 更方便阅读

下载此文赞助VIP

声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架

论文部分内容阅读

随着Web网站规模的逐渐扩大，Web日志数据日益膨胀，对网站管理的任务变得越来越艰巨。如何从大量Web日志数据中提取出潜在有用的信息和知识，以便网站管理人员可以据此优化网站的结构，便利用户的访问，增加网站访问量；已经成为目前迫切需要解决的一个重要问题。因此设计与实现一个Web同志挖掘系统，对大量Web同志数据进行挖掘。首先进行数据采集和预处理，识别原始的服务器同志格式并将其结构化，根据分析的目的删除“无用”的记录以进行数据净化。通过启发性规则，借助站点的拓扑结构识别用户，再进行会话识别，得到各个用户在不同的时刻的会话。对不完整的用户访问记录，借助站点的拓扑结构补充用户的访问路径，得到完整的用户会话。通过分析，确定最大向前路径，发现各个用户的频繁访问路径。将K一中心点聚类思想引入标准遗传算法，给出一种改进的混合遗传聚类算法，从所有用户会话挖掘出各个不同的用户群；这种改进的算法能有效地提高标准遗传算法的局部搜索能力和收敛速度，得到较好的聚类效果。充分利用用户聚类结果，设计一种不需要生成候选集的快速关联规则算法，挖掘出各个用户群的URL页面关联规则，建立挖掘信息之间的相关联系。在系统的实现过程中，实现了数据采集和预处理、用户访问路径识别和用户模式分析的功能。用某网站半个月的Web日志数据对系统进行测试与分析。

其他文献

基于同步关系的并行动态数据竞争检测方法研究

多核平台的普及使得并行软件渗入到计算领域的方方面面，由于软件并行度的提高，多线程之间的数据竞争检测为软件调试带来巨大挑战。数据竞争检测是一种通过分析并行程序的源代码

学位

软件调试并行程序数据竞争检测同步关系

云计算平台下基于改进D-S证据理论的DDoS攻击检测研究

随着当前云计算技术的快速发展，越来越多的个人、企业与政府将会使用云计算服务，这些服务通过网络按需向用户提供。作为传统网络环境中最常见的攻击方式之一，分布式拒绝服务(DDo

学位

计算机网络分布式拒绝服务攻击检测方法D-S证据理论云计算平台

基于蚂蚁算法的QoS路由算法研究

随着Imemet的飞速发展，IP网络不但在规模而且在用户数量方面都得到了巨大增长，同时新的多媒体业务也越来越普遍，QoS路由问题已经成为Imemet发展中最具有挑战性的、最为活跃的研

学位

网络通信服务质量路由拥塞规避蚂蚁算法负荷均衡

一个教学质量评价系统的设计与实现技术

教学质量评价作为教务管理工作中重要的环节，对及时发现教学中的存在问题，提高学校的教学质量，制定教学管理措施都有重要的指导意义。将基了粗糙集理论的规则抽取和联机分析技术

学位

教学质量评价联机分析处理粗糙集规则教务管理数据库结构

基于两阶段的深层网络数据源发现系统研究

互联网数据根据是否能被搜索引擎所索引分为浅层网络和深层网络。深层网络相比浅层网络具有更大的数据量和更高的质量，高效的定位深层网络数据源是挖掘隐藏在深层网络背后信息

学位

深层网络数据源发现系统爬行过程自适应学习机制特征提取

基于Web Service的企业应用集成的研究与实现

本文分析了传统企业应用集成存在的不足,深入研究了Web Service技术的体系结构和关键技术,分析了Web Service技术在应用集成方面的优势,提出了一种基于Web Service的应用集成

学位

Web Service应用集成SOAPWSDLUDDI

基于粗糙集的多知识库信息融合

粗糙集理论是20世纪80年代初由波兰数学家PaWlak Z．首先提出的一种新型的处理模糊和不确定知识的数学工具，其基本思想是在保持分类能力不变的前提下，通过知识约简，导出概念的分类

学位

粗糙集多知识库决策规则信息融合

基于XML的异构数据库数据交换在财税库行系统的实现

本文对基于XML的异构数据库数据交换在财税库行系统的实现进行了研究。文章针对财政、税务、国库、商业银行等各部门信息系统采用的异构数据库，在目前异构数据库数据交换的主

学位

现代财政数据交换数据库技术

基于PXA270的便携式媒体播放器的设计与实现

随着嵌入式系统的不断发展,EVD、PMP、智能手机、PDA、数字电视和IPTV等消费电子类产品越来越多地受到人们的亲睐。其中便携式媒体播放器(PMP)是最近非常火热的嵌入式消费类

学位

便携式媒体播放器嵌入式操作系统板级支持包电源管理

基于声音的信息隐藏技术的仿真评价

信息隐藏技术作为信息安全领域的一个研究热点，已引起很多专家和学者的关注，近几年取得了很大进展。信息隐藏技术主要包括两个方面：信息伪装和数字水印。网络的发展使信息的传递

学位

音频隐藏保密语音最低比特位回声小波变换信息安全数字水印

Web日志挖掘系统的设计与实现

其他学术论文