Web日志挖掘研究与基于页面信息量的事务识别

来源 :西安交通大学 | 被引量 : 0次 | 上传用户：ericli2009

【摘要】

：

该文研究Web挖掘技术和方法,并提出一些新的见解和思想,文章首先概要介绍了数据挖掘的基本知识.然后组出了Web挖掘的定义,指出Web挖掘所面临的不同于传统数据挖掘技术的挑战,

【作者】

：

潘登

【机构】

：

西安交通大学

【出处】

：

西安交通大学

【发表日期】

：

2002年期

【关键词】

：

数扰挖掘 Web挖掘事务识别内容引用

下载到本地 , 更方便阅读

下载此文赞助VIP

声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架

论文部分内容阅读

该文研究Web挖掘技术和方法,并提出一些新的见解和思想,文章首先概要介绍了数据挖掘的基本知识.然后组出了Web挖掘的定义,指出Web挖掘所面临的不同于传统数据挖掘技术的挑战,分析了Web挖掘可能的数据来源.文中将Web挖掘分为Web内容挖掘、Web结构挖掘和Web日志挖掘三类，并对日志挖掘进行了重点讨论，详细组出Web日志挖掘的体系结构.事务识别是Web日志挖掘过程中至关重要的一个步骤，方中介绍了引用长度、最大前向引用时间窗口三种识别法，并针对引用长度算法的不足，引入页面信息量参数，提出了阅读速率算法.论文分析了Web日志挖掘的频繁路径挖掘算法，提出了类Apriori算法并介绍了全扫描算法.该文还进行了实验工作，对四种不同的事务识别算法进行了理论分析，实现啊引用长度和阅读速率算法，并用实际数据进行了比较.该文的工作对于学习和研究基于Internet的数据挖掘技术具有很好的参考价值，对建造际Web挖掘系统具有重要的理论意义.

其他文献

基于LOD数据集的科学数据关联发现

学位

流式媒体的调度和缓存

在流式媒体系统技术这一课题中,该文主要研究多媒体流调度技术和流式媒体缓存技术(即多媒体代理服务器及缓存),其主要成果为:第一,提出PeriodPatching和Selective PeriodPatc

学位

流式媒体流调度多媒体代理服务器缓存代理服务器协作

邮件加密算法PGP的研究与改进

学位

车载自组织网络中数据聚合算法的研究

学位

解决嵌入式操作系统移植问题的一个方案——通用硬件抽象层的设计与实现

由于计算机业和通讯业的迅猛发展以及两者的结合，计算机工业的重心开始由单纯的计算产品向各种信息产品转换，而信息产品中嵌入式产品的发展，同时也决定了对嵌入式系统控制起决定

学位

数字化家电用嵌入式操作系统的研究与开发计算机体系结构嵌入式系统嵌入式操作系统eCos硬件抽象层通用硬件抽象层嵌入式Linux

高校综合网络系统中的数据仓库技术设计实现

该文以高校综合网络系统在Intranet环境下的设计和实现为背景,对数据仓库开发技术和开发方法进行了探讨.文章系统而全面地分析了数据仓库的规则、设计技术及数据仓库的体系结

学位

数据库数据仓库系统设计高校综合网络系统

视频点播系统的时间表算法

对于视频点播系统而言,服务器端的网络带宽往往成为整个系统的瓶颈.该文提出了一个新的服务器端网络带宽调度算法--时间表算法.该算法利用网络多播技术,通过让多个用户分享视

学位

视频点播网络缓存多播多播安全

自适应教育超媒体的研究与实现

超媒体在教育、教学领域有着非常广泛的应用。本研究课题的重点是研究自适应教育超媒体的系统模型，在充分借鉴和参考国内外现有研究成果的基础上，从超媒体的自适应性及其特点入

学位

超媒体教育超媒体系统模型用户模型超链

基于网络入侵检测技术的研究

该文着重研究网络信息安全中的入侵检测技术以及入侵检测系统.文章介绍了黑客攻击手段和入侵检测原理,讨论了公共入侵检测框架CIDF,分析了一个常用的入侵监测系统（即采用集中

学位

入侵检测系统因特网网络安全

模式识别中的模糊集成技术研究

该文以数字图象模式识别为研究对象,研究使用模糊技术,集成技术及两者的结合来提高模式识别系统的识别率.模糊技术方面,该文主要对基于模糊推理规则的模式分类进行研究,在用

学位

模糊神经网络神经网络集成纵向集成数字图象模式识别

Web日志挖掘研究与基于页面信息量的事务识别

与本文相关的学术论文