论文部分内容阅读
如今互联网中的数据呈现爆炸式的增长,如何从海量数据中发现潜在的规律和知识已经是一个不可回避的问题,而Web挖掘可以很好地解决这一问题。Web日志挖掘是Web挖掘的重要研究方向,目的在于从大量的Web日志数据中挖掘出用户的浏览行为和兴趣偏好,以便于调整站点结构和更有针对性地向用户推荐页面或服务。本文对Web日志挖掘的相关理论和和完成过程进行了全面而系统地阐述、分析,同时,提出了一种适用于高校网站的改进的模式挖掘算法。首先,要预处理采集到的原始Web日志数据,依次经过数据清洗、用户识别、会话识别、路径补充和事务识别步骤,不仅过滤了数据,还把Web日志转换成事务数据库,为模式挖掘奠定了基础。其次,深入分析了关联规则挖掘思想以及Apriori算法。针对Apriori算法操作麻烦,需要多次重复扫描数据库来产生候选集的问题,本文创新性地在软集模型下进行关联规则挖掘,提出了一种基于软集的最大关联规则挖掘算法。软集理论作为一个新兴的处理不确定性问题的工具,因其在模型描述上的简单而独特,被成功应用在决策问题中。本文将事务数据库用软集表示后,使其呈现出更加丰富的知识和信息,在软集上进行关联规则挖掘能够达到更好的效果。为了避免对属性支持子集的蛮力搜索,本文提出了软最大关联规则算法,不但可以保障挖掘结果的精度,而且在时间复杂度上表现出了突出的优势。最后,本文设计并编程实现了Web日志分析系统。系统采用软最大关联规则算法对高校网站日志进行规则提取,并将挖掘到的关联规则通过系统界面呈现给用户。除此之外,系统还设有性能分析模块,可以统计分析页面的点击数、页面停留时间、用户来源和受欢迎页面等,使网站管理者对用户网站访问情况进行更详细的了解,以此为参照对网站进行改进。