Web日志中序列模式挖掘及其应用

来源 :南京工业大学 | 被引量 : 0次 | 上传用户:chicagousa
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
随着Internet的迅速发展和不断的普及,Web日志资源越来越丰富,如何分析和利用这些海量的数据是当前突出的问题。Web日志挖掘是网络信息处理的一门新技术,也是数据挖掘在Internet领域的一个重要应用。伴随着Internet的迅速发展,Web日志挖掘在电子商务和个性化Web等方面有着广泛的应用。通过挖掘Web日志可以改善网站的组织结构,监控服务器的工作情况,改善Web应用的系统设计,为用户提供个性化服务。另外,Web日志挖掘中通过分析挖掘用户访问路径的结果可以改善站点的设计,改进市场决策。 Web日志挖掘就是运用数据挖掘的思想来对服务器日志进行分析处理,因而可以实现上述的各种功能。但目前现有的用户访问路径挖掘算法大多数只是直接利用挖掘布尔关联规则频繁项集的Apriori算法,而没有很好的考虑如何结合访问路径的特点来改进算法,以得到更好的挖掘结果及挖掘效率。本文在研究数据挖掘技术的基础上,重点研究了Web日志挖掘的特点、方法及相关技术。讨论了日志预处理的过程及几种有效的数据预处理方法,实现了分割服务器日志为单独的用户和用户会话过程。关联规则和序列模式是研究和发现事务数据库中数据项之间的相关性的方法。本文深入研究了关联规则挖掘技术和序列模式识别技术,并结合二者的优点,实现了基于关联规则的序列模式识别算法。算法可以从Web服务器日志中挖掘出用户信息和数据信息,有效地识别用户访问模式。并将Web日志挖掘技术应用于电子商务领域,介绍了几种应用方向,重点研究了改进站点设计的方法。 实验证明,Web日志挖掘技术可以有效的识别用户访问模式,为网站管理员和商家决策提供宝贵的信息,实现网络个性化服务。
其他文献
树叶绿色主要是由叶片内光合色素所呈现的,而光合色素的含量分布造成呈现不同的绿色,而这往往也放映了树木各种生理特性。而对于机器视觉进行识别和色差分析时,需要保证在恒
网络家电,又称信息家电,是未来家用电器的主要发展方向。未来家庭中,多台网络家电设备协调工作,并组成一个互动的网络环境,以方便用户的使用。这个网络环境被称为数字家庭网络,简称家庭网络,主要由家庭网关、网络家电设备以及“万用遥控器”组成。在网络家电的整体协议框架中,网络家电即插即用技术属于应用层协议的研究范畴。网络家电能否像传统家电一样,有效的实现即插即用,关系到网络家电大规模商业应用的前景。本文重点
本文针对现有的电信增值业务,对增值业务的数据仓库信息模型进行了研究和设计。  本文研究了数据仓库的相关理论和新一代运营支撑系统(NGOSS)中的共享信息/数据模型(SID),并
随着互联网技术的发展,网络服务已经覆盖到了各个领域。由于服务器发生故障会带来一定程度的损失,因此,网络服务器的高可靠性至关重要。虚拟机状态同步(将主虚拟机的状态以一定方
随着企业规模的不断扩大,企业信息系统的规模也随之扩大,由于实施数据管理系统的阶段性、技术性以及其它因素的影响,以至于即使在一个单独企业,每个部门或单位就是一个数据源
物料需求计划(MaterialRequirementsPlanning,MRP)是企业资源计划(ERP)各类物料生产供应的基础信息。传统的MRP系统,在系统的可重构性、开放性和通用性方面柔性化程度较低,同时,
随着因特网在全球的迅速发展和社会信息化程度的不断提高,一些新型多媒体应用不断涌现,如电子商务、虚拟现实、数字化图书馆、远程教育、视频会议等。由于因特网业务在全世界
现代移动通信技术发展至今已有近80年历史。80年来,移动通信技术经历了从模拟到数字的变迁。从目前的发展趋势来看,通信的个人化和业务的综合化是人们追求的主要目标。CDMA技
物联网融合了物理世界和信息世界,延伸和扩展了互联网,成为了大家研究的热门领域。随着物联网的快速发展,物联网也变得越来越复杂,使得现有对物联网的研究已经有了局限性。一
传统的大型数据文件一般存放在磁盘或者光盘等二级存储介质上,其慢速的I/O操作性能严重影响了CPU的处理速度和效率,成为整个系统的瓶颈。随着技术的进步,曾出现的非分布式内存数