Web日志挖掘系统的设计与实现

来源 :华中科技大学 | 被引量 : 0次 | 上传用户:wenlingqiang6268047
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
随着Web网站规模的逐渐扩大,Web日志数据日益膨胀,对网站管理的任务变得越来越艰巨。如何从大量Web日志数据中提取出潜在有用的信息和知识,以便网站管理人员可以据此优化网站的结构,便利用户的访问,增加网站访问量;已经成为目前迫切需要解决的一个重要问题。因此设计与实现一个Web同志挖掘系统,对大量Web同志数据进行挖掘。 首先进行数据采集和预处理,识别原始的服务器同志格式并将其结构化,根据分析的目的删除“无用”的记录以进行数据净化。通过启发性规则,借助站点的拓扑结构识别用户,再进行会话识别,得到各个用户在不同的时刻的会话。对不完整的用户访问记录,借助站点的拓扑结构补充用户的访问路径,得到完整的用户会话。通过分析,确定最大向前路径,发现各个用户的频繁访问路径。 将K一中心点聚类思想引入标准遗传算法,给出一种改进的混合遗传聚类算法,从所有用户会话挖掘出各个不同的用户群;这种改进的算法能有效地提高标准遗传算法的局部搜索能力和收敛速度,得到较好的聚类效果。充分利用用户聚类结果,设计一种不需要生成候选集的快速关联规则算法,挖掘出各个用户群的URL页面关联规则,建立挖掘信息之间的相关联系。 在系统的实现过程中,实现了数据采集和预处理、用户访问路径识别和用户模式分析的功能。用某网站半个月的Web日志数据对系统进行测试与分析。
其他文献
多核平台的普及使得并行软件渗入到计算领域的方方面面,由于软件并行度的提高,多线程之间的数据竞争检测为软件调试带来巨大挑战。数据竞争检测是一种通过分析并行程序的源代码
随着当前云计算技术的快速发展,越来越多的个人、企业与政府将会使用云计算服务,这些服务通过网络按需向用户提供。作为传统网络环境中最常见的攻击方式之一,分布式拒绝服务(DDo
随着Imemet的飞速发展,IP网络不但在规模而且在用户数量方面都得到了巨大增长,同时新的多媒体业务也越来越普遍,QoS路由问题已经成为Imemet发展中最具有挑战性的、最为活跃的研
教学质量评价作为教务管理工作中重要的环节,对及时发现教学中的存在问题,提高学校的教学质量,制定教学管理措施都有重要的指导意义。将基了粗糙集理论的规则抽取和联机分析技术
互联网数据根据是否能被搜索引擎所索引分为浅层网络和深层网络。深层网络相比浅层网络具有更大的数据量和更高的质量,高效的定位深层网络数据源是挖掘隐藏在深层网络背后信息
本文分析了传统企业应用集成存在的不足,深入研究了Web Service技术的体系结构和关键技术,分析了Web Service技术在应用集成方面的优势,提出了一种基于Web Service的应用集成
粗糙集理论是20世纪80年代初由波兰数学家PaWlak Z.首先提出的一种新型的处理模糊和不确定知识的数学工具,其基本思想是在保持分类能力不变的前提下,通过知识约简,导出概念的分类
本文对基于XML的异构数据库数据交换在财税库行系统的实现进行了研究。文章针对财政、税务、国库、商业银行等各部门信息系统采用的异构数据库,在目前异构数据库数据交换的主
随着嵌入式系统的不断发展,EVD、PMP、智能手机、PDA、数字电视和IPTV等消费电子类产品越来越多地受到人们的亲睐。其中便携式媒体播放器(PMP)是最近非常火热的嵌入式消费类
信息隐藏技术作为信息安全领域的一个研究热点,已引起很多专家和学者的关注,近几年取得了很大进展。信息隐藏技术主要包括两个方面:信息伪装和数字水印。网络的发展使信息的传递