论文部分内容阅读
随着Internet技术的快速发展,互联网已经成为人们日常生活中从外界获取信息不可缺少的手段。从政府机关和各企业公司到个人生活,都离不开互联网。但是随着网络技术的发展,Web网站的规模与复杂度也在不断地增长,导致了Internet网络资源过于广泛,这使得广大的访问者迷失在大量的网络资源中,无法找到自己关注的信息。各个网站经营者想要提高自己网站的访问量,需采用各种手段与工具优化网站,以提供给用户一个个性化的服务。解决这一问题的一个有效方法是将数据挖掘理论与技术应用到Web日志上,即Web日志挖掘(也称Web使用挖掘)。数据挖掘是信息系统智能化的重要手段之一,是从大量的模糊的、不完全的、随机的数据中挖掘出有效的、有意义的知识和规则。
Web日志挖掘的数据主要来源于网站服务器端、客户端、代理服务器端,由于网站每天的访问量是非常巨大的,所以Web日志数据一般会是大量的、冗余的、不确定的。而粗糙集理论是一种处理不精确、不相容、不完全数据的有效工具。粗糙集约简理论在处理海量数据,消除冗余知识等方面取得了很好的效果。在Web日志挖掘的模式发现阶段前,应用粗糙集的属性约简理论可以去掉Web日志中的大量冗余数据,精简原有知识,从而提高模式挖掘的效率。
本文首先阐述了粗糙集理论的基础知识,为后面粗糙集属性约简理论的研究做了一个理论铺垫。从粗糙集约简代数定义出发,研究了各种约简算法,并比较了几种约简算法的特点和性能。针对属性重要度的代数和信息两种不同表示方式的讨论后,得出对论域中对象的分类,从不一致对象的角度出发,定义了新的属性很重要度,并提出了基于哈希表的计算方法,最后提出改进的启发式属性约简算法。经实验证明,该算法的性能要优于一般的算法。文章还研究了Web日志挖掘的概念以及相关技术,并在现实的Web日志数据上进行Web日志挖掘过程的实施。