论文部分内容阅读
该文研究Web挖掘技术和方法,并提出一些新的见解和思想,文章首先概要介绍了数据挖掘的基本知识.然后组出了Web挖掘的定义,指出Web挖掘所面临的不同于传统数据挖掘技术的挑战,分析了Web挖掘可能的数据来源.文中将Web挖掘分为Web内容挖掘、Web结构挖掘和Web日志挖掘三类,并对日志挖掘进行了重点讨论,详细组出Web日志挖掘的体系结构.事务识别是Web日志挖掘过程中至关重要的一个步骤,方中介绍了引用长度、最大前向引用时间窗口三种识别法,并针对引用长度算法的不足,引入页面信息量参数,提出了阅读速率算法.论文分析了Web日志挖掘的频繁路径挖掘算法,提出了类Apriori算法并介绍了全扫描算法.该文还进行了实验工作,对四种不同的事务识别算法进行了理论分析,实现啊引用长度和阅读速率算法,并用实际数据进行了比较.该文的工作对于学习和研究基于Internet的数据挖掘技术具有很好的参考价值,对建造际Web挖掘系统具有重要的理论意义.