基于Web的日志挖掘技术的研究

来源 :哈尔滨工程大学 | 被引量 : 0次 | 上传用户:lili_mine12_5
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
Internet是一个全球的、分布的、动态的信息仓库,它存储着大量的数字化信息。在今天,它已经成为大众获得日常信息的重要来源。可是,由于庞大的信息量,对于每一个用户来说,如何能够及时地发现有用的信息则变得越来越困难。而对于每一个网站想如何及时了解自己组织结构的合理性也很困难。然而Web服务器日志文件中记录了该服务器被外部访问的所有信息,通过对这些过程信息的分析,可以客观地反映服务器的内部结构、组成、内容、访问频度等有关该服务器的重要信息。同时,在任何一个服务器上都可以很方便地得到它的日志文件,数据的来源很方便,所以对它进行分析是可行的,而且也是有效的。 本篇论文主要从以下四个方面对Web日志挖掘进行了系统的分析和研究。第一是对数据挖掘和Web日志挖掘进行了概述,阐述了Web日志挖掘的意义、研究的现状、面临的问题;第二是讨论了Web日志挖掘的三个阶段:数据预处理、模式发现和模式分析;第三是认真研究分析了模式发现阶段的基于聚类的数据挖掘的基本原理和一般方法,并介绍了模糊聚类理论应用及研究;第四是对模糊C-均值聚类算法作了介绍,提出了一种适用于Web日志挖掘的数据结构及相应的算法。数据结构是一个用户/页面(User_URL)关联矩阵,用来表示用户对页面的访问信息。挖掘算法采用模糊聚类,可以得到Web日志中具有相似访问兴趣的Web事务群体。
其他文献
本文分析了计算机网络所存在的安全问题以及现有密码体制的主要特点,论述了构造椭圆曲线密码系统所需的数学知识和主要概念,在此基础上提出了一个基于ECC(椭圆曲线密码体制)的
随着Internet的飞速发展,网络的链路速度在不断提高的同时又出现了大量的新协议、新服务,这对网络交换设备提出了很高的要求。传统的网络设备一般采用ASIC或者纯软件的方案实
当前,随着计算机网络技术的迅速发展,计算机快速转向开放的、网络平台的、协同工作方式。基于Agent理论和技术尤其是MAS的理论和技术给我们带来了设计和实现分布与开放环境中运
图的交叉数是衡量图的非平面性的一个重要概念.Bhatt和Leighton指出一个网络(图)的交叉数是与这个图VLSI电路设计需要的最小版图面积是密切相关的.然而计算任意图的交叉数是
基于组件的软件工程正逐渐被人们用来进行软件开发,这种把可重用的组件作为构建软件块的方法使得软件系统的扩展和改进变得非常容易.同时,它提高了软件的质量和生产效率.虽然
随着信息高速公路、数字地球概念的提出以及Internet的广泛应用,图像信息已成为人类获取和利用信息的重要来源和手段。图像分割正是图像信息处理、计算机视觉领域一个重要而基
日益增多的空间碎片已经严重影响航天器和卫星的正常在轨运行,甚至可能带来毁灭性的灾难。为从根本上控制空间碎片数目增长,消除空间碎片给航天活动带来的威胁,碎片主动移除
语音识别技术是信息领域的标志性技术,随着计算机技术的飞速发展,其技术日臻成熟,目前正处于向产品化迈进的转折阶段,它作为人机对话的手段,在计算机日益普及的今天,愈发显现
在VLSI设计中,具有标准接口的IP核设计和复用技术的得到广泛认可和深入发展.IP软核的设计只需完成前端RTL级设计,基于模块化设计的IP在现代的超大规模集成电路设计中得以迅速
随着Internet的迅速发展,网上协同作业系统日渐成熟,网络安全问题也日渐突出,公钥认证体系(PKI)是在开放网络环境下提供身份认证,并保证信息机密性和完整性的技术,目前已经成为安