论文部分内容阅读
网络技术的发展,特别是WWW技术的兴起,使得人们对于信息的获取更加的快捷和方便。但是这些新技术的使用同时也带来不少弊端,比如大家在浏览网页时,发现很难直接找到自己需要的信息,而是相反的好像淹没在这海量的信息之中。 数据挖掘的提出在很大程度上解决此问题。本文对于数据挖掘的定义、数据挖掘的任务、数据挖掘中的对象、数据挖掘的分析方法都做了很详尽的论述。数据挖掘最初主要使用在数据库上。但数据挖掘的对象并不局限于数据库,现在人们已经将数据挖掘的知识应用到了Web领域上,用来从网络信息当中挖掘出潜在的、有用的模式来。基于Web的挖掘又分为三类,对日志的挖掘是属于其中的使用挖掘。作为记录了人们访问情况的网络日志特别是服务器日志,因为其有着固定的结构,更容易进行挖掘,而受到研究者的青睐。 本文就是在基于聚类的基础上探讨了日志挖掘中的各种问题。首先从理论的角度对聚类领域进行了较为全面的探讨,分析了聚类的基本模型,聚类中常见算法,聚类的有效性衡量的方法,然后结合了日志的具体的特点,阐述了在日志挖掘对于聚类分析的特殊的要求。根据文献中已有的知识总结了日志挖掘的基本模型,详细的阐述了日志挖掘中的每一个阶段的内容及在日志挖掘中的地位。特别对于日志的预处理中的问题,提出了日志的“脏数据”和“噪声数据”两个概念,并且对这两个概念进行了详细的阐述并做了比较。这两个概念的提出使得日志挖掘模型的步骤更加的清晰可行。 我们知道任何理论的最终目的都是应用于实践,日志挖掘也不例外。我们将日志挖掘得到的知识应用在了网页推荐上。在这一环节中,我们提出了自己的打分函数。新的打分函数综合考虑了多种因素对于用户未来访问的影响,充分利用了我们上一阶段日志挖掘中得到的知识。最后,我们提出了具体LogDiscover日志挖掘的模型,将我们提出的这些理论应用在具体的模型中。通过LogDiscover在真实日志中的表现,特别是得出的各种数据进一步的证明了我们提出的各种想法的可行性和有效性。