论文部分内容阅读
随着互联网的迅速普及和广泛应用,Web上产生的信息也随之飞速增长,如何从浩瀚的资料中挖掘出有价值的信息,受到各方面的关注。WWW网无论是在访问量、规模上还是在网站设计的复杂度上都以惊人的速度增长着。像Web站点设计、Web服务设计和一些通过Web网站进行简单的导航模式设计也都增大了设计的难度。为了更好地设计Web服务器,一个更好的方式就是分析原来的网站是如何被利用的。日志数据的分析可以通过统计数据的形式,像统计经常被访问的页面集、统计经常需要分析的重要的表格数据、通过网站分析找出一般的访问路径模式等。Web日志挖掘就是运用数据挖掘的思想来对服务器日志进行分析处理,从而解决上面提出的各种问题。 本研究在简述了Web日志挖掘的概念、研究内容、关键技术和目前的国内外研究状况的基础上,针对某区政府门户网站的访问日志,采用数据挖掘技术进行数据分析,从而找出用户访问规律和内容喜好,为改进网站结构和内容提供了决策支持。论文所做的主要工作是: (1) 对Web日志的预处理进行了研究,给出了预处理的流程并分析了其中的难点;包括数据净化、会话识别、用户识别、路径补充,并描述了预处理模型及其算法流程; (2) 对其经典Apriori算法进行了剖析,提出了改进算法M-Apriori算法,并通过缩减数据项集的办法来提高Apriori算法的执行效率; (3) 对路径遍历模式挖掘进行了研究,例如最大向前路径生成算法,频繁遍历路径挖掘算法,最大频繁遍历挖掘算法,并尝试将其用到某区政府网站的挖掘之中; (4) 根据Apriori改进算法,通过修改源代码的方式应用到Weka挖掘工具中;用改进后的Weka挖掘工具对该政府网站日志进行挖掘,依据挖掘结果给出针对该区政府门户网站的改进建议。