论文部分内容阅读
Internet的迅猛发展和普及,使得Web信息量以惊人的速度增加,人们迫切需要能自动从Web上发现、抽取和过滤信息的工具。因此,产生了Web挖掘。Web使用挖掘是Web挖掘的重要分支,它利用数据挖掘技术对网站大量的用户访问数据及其它相关数据所组成的数据集进行分析挖掘,并从中获得有关网站访问使用情况的有价值的模式知识,以降低用户搜索信息的代价提高服务质量。Web使用挖掘是一个结合了众多学科知识的新兴领域,涌现出很多有待解决的新课题和新方向。本文围绕Web使用挖掘中的主要问题进行了以下几个方面的研究。首先,作为对Web使用挖掘进行研究的开始和基础,本文首先对Web使用挖掘中各个阶段进行了全面的分析,对挖掘技术进行了深入的探讨和分析;详细研究了Web使用挖掘的有关理论及应用空间;展望了Web使用挖掘未来的研究方向。其次,介于Web挖掘与站点结构优化的需要,本文提出了一种完全基于数学模拟方法的会话仿真器,该仿真器根据已有的网站结构,利用Markov链对用户访问行为进行建模,并应用页面PageRank值对Markov模型进行训练学习,建立仿真算法,生成可靠的仿真会话数据,为Web使用挖掘后续研究以及站点优化提供基础和指导。最后,利用关联规则指导站点优化目前人们已经有了大量的研究。但是这些优化方法主要是基于正关联规则,基于负关联的优化方法研究较少。本文提出了一种基于正负关联规则优化策略,对网站超链接重建,包括添加能显著降低转移代价的超链接和删除迷惑用户的冗余超链接两种操作,从两方面降低用户对目标信息搜索代价。关于负关联规则的研究,国内外才刚刚起步。Web使用挖掘并不是简单的直接运用现有的挖掘技术,它有着它自身的特点。本文结合Web结构,对已有的正负关联规则挖掘算法从项集的裁剪与挖掘策略两方面进行改进,提出一个快速、高效的能同时挖掘正负关联规则的算法。