基于关联规则的Web日志挖掘研究及在电子政务中的应用

来源 :首都师范大学 | 被引量 : 5次 | 上传用户:HIT_Happy
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
Web日志记录了用户对Web站点访问信息,保存有大量的路径信息,对这类信息的分析有利于网站设计人员掌握用户的喜好和访问习惯,并可以为网站的结构优化和页面重组提供帮助。日志数据的分析可以通过统计数据的形式,比如统计经常被访问的页面集、统计经常需要分析的重要表格数据、分析网站找出一般的访问路径模式等。Web日志挖掘就是运用数据挖掘的思想来对服务器日志进行分析处理,从而解决上面提出的各种问题。本文首先对Web数据挖掘和web日志挖掘进行了研究,指出了其具体内容和二者的关系,同时对Web日志的预处理进行了分析研究,描述了面向电子政务的点击流数据预处理方法,设计了相关的数据库表和实施预处理的流程算法。通过对经典FP-growth算法进行分析,提出了FP-growth关联规则挖掘的改进算法,通过性能比较,指出改进算法的性能在时间上得到了提高。论文进一步讨论了在原有先锋电子政务系统的基础上,将数据挖掘中关联规则FP-growth的改进挖掘算法应用到电子政务Web日志挖掘系统中。经过对关联规则算法的研究和改进,采用了改进的FP-growth算法对经过数据预处理的点击流数据进行了挖掘,并分析挖掘结果,指出网站结构的不足,从而对网站结构建设及政务系统的改进提出意见。在论文总结展望部分,讨论了目前研究工作中需要进一步完善的问题,指出了今后的研究方向。
其他文献
图像分割是从输入图像中提取目标或感兴趣区域的过程,是目标检测和识别过程中的重要步骤。模糊聚类是模糊理论的一个重要的分支,在图像分割中得到广泛应用。本文对应用模糊聚
视频编码的主要目标就是要在编码效率、图像重建质量和编码复杂度之间找到最佳的平衡点。H.264视频编码标准只规定了视频码流编码语法和解码方法,它并没有对编码器给出明确定
在后PC时代,随着嵌入式处理器性能的迅猛提升,嵌入式操作系统的日益成熟和嵌入式网络技术的快速发展,嵌入式系统正日益广泛被应用到工业控制、医疗卫生、交通运输、通信系统
文本分类和聚类技术是应信息检索和查询需要而出现的自然语言处理领域的重要研究课题。面对急速膨胀的各种文本信息,通过使用文本分类和聚类技术,人们能对这些信息进行高效地组
Ontology(本体论)最早是哲学上的一个概念。20世纪90年代起,人们将本体的概念引入人工智能、知识工程、图书情报和信息系统领域,从而是本体概念的内涵也随之发生了变化。近年
汽车是人们常用的交通工具,在长期使用过程中会产生故障。由于汽车本身结构的复杂性,以及汽车故障的不确定性和模糊性,给汽车故障的诊断与维修带来很大困难。随着汽车数量的
随着计算机与互联网的广泛普及,语言信息处理的社会需求日益增大,人们迫切需要用自动化的手段处理海量的语言信息。在这种情形下,作为智能化人机接口重要组成部分的汉字键盘
软件产品交付使用以后,为了保持稳定运行并适应新的要求,必须进行维护。在维护的过程中,为了提高软件可维护性并延长软件寿命,需要引进新的技术方法作预防性维护。重构是预防
使用计算机对医学影像进行处理与分析,从而辅助医生进行更准确的诊断,这一技术越来越受到人们的重视,涌现出大量的医学影像处理系统,其规模和复杂度不断增加,使得传统的软件
近年来,随着SARS以及其他公共卫生突发事件的频繁发生,建立公共卫生突发事件应急指挥系统(以下简称公共卫生应急指挥系统)已经成为各国政府应对公共卫生突发事件的主要策略。目