Web日志挖掘研究与基于页面信息量的事务识别

来源 :西安交通大学 | 被引量 : 0次 | 上传用户:ericli2009
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
该文研究Web挖掘技术和方法,并提出一些新的见解和思想,文章首先概要介绍了数据挖掘的基本知识.然后组出了Web挖掘的定义,指出Web挖掘所面临的不同于传统数据挖掘技术的挑战,分析了Web挖掘可能的数据来源.文中将Web挖掘分为Web内容挖掘、Web结构挖掘和Web日志挖掘三类,并对日志挖掘进行了重点讨论,详细组出Web日志挖掘的体系结构.事务识别是Web日志挖掘过程中至关重要的一个步骤,方中介绍了引用长度、最大前向引用时间窗口三种识别法,并针对引用长度算法的不足,引入页面信息量参数,提出了阅读速率算法.论文分析了Web日志挖掘的频繁路径挖掘算法,提出了类Apriori算法并介绍了全扫描算法.该文还进行了实验工作,对四种不同的事务识别算法进行了理论分析,实现啊引用长度和阅读速率算法,并用实际数据进行了比较.该文的工作对于学习和研究基于Internet的数据挖掘技术具有很好的参考价值,对建造际Web挖掘系统具有重要的理论意义.
其他文献
学位
在流式媒体系统技术这一课题中,该文主要研究多媒体流调度技术和流式媒体缓存技术(即多媒体代理服务器及缓存),其主要成果为:第一,提出PeriodPatching和Selective PeriodPatc
学位
学位
由于计算机业和通讯业的迅猛发展以及两者的结合,计算机工业的重心开始由单纯的计算产品向各种信息产品转换,而信息产品中嵌入式产品的发展,同时也决定了对嵌入式系统控制起决定
该文以高校综合网络系统在Intranet环境下的设计和实现为背景,对数据仓库开发技术和开发方法进行了探讨.文章系统而全面地分析了数据仓库的规则、设计技术及数据仓库的体系结
对于视频点播系统而言,服务器端的网络带宽往往成为整个系统的瓶颈.该文提出了一个新的服务器端网络带宽调度算法--时间表算法.该算法利用网络多播技术,通过让多个用户分享视
超媒体在教育、教学领域有着非常广泛的应用。本研究课题的重点是研究自适应教育超媒体的系统模型,在充分借鉴和参考国内外现有研究成果的基础上,从超媒体的自适应性及其特点入
该文着重研究网络信息安全中的入侵检测技术以及入侵检测系统.文章介绍了黑客攻击手段和入侵检测原理,讨论了公共入侵检测框架CIDF,分析了一个常用的入侵监测系统(即采用集中
该文以数字图象模式识别为研究对象,研究使用模糊技术,集成技术及两者的结合来提高模式识别系统的识别率.模糊技术方面,该文主要对基于模糊推理规则的模式分类进行研究,在用