基于粗糙集约简的Web日志挖掘研究与实现

来源 :河北工业大学 | 被引量 : 0次 | 上传用户:X22521
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
随着Internet技术的快速发展,互联网已经成为人们日常生活中从外界获取信息不可缺少的手段。从政府机关和各企业公司到个人生活,都离不开互联网。但是随着网络技术的发展,Web网站的规模与复杂度也在不断地增长,导致了Internet网络资源过于广泛,这使得广大的访问者迷失在大量的网络资源中,无法找到自己关注的信息。各个网站经营者想要提高自己网站的访问量,需采用各种手段与工具优化网站,以提供给用户一个个性化的服务。解决这一问题的一个有效方法是将数据挖掘理论与技术应用到Web日志上,即Web日志挖掘(也称Web使用挖掘)。数据挖掘是信息系统智能化的重要手段之一,是从大量的模糊的、不完全的、随机的数据中挖掘出有效的、有意义的知识和规则。   Web日志挖掘的数据主要来源于网站服务器端、客户端、代理服务器端,由于网站每天的访问量是非常巨大的,所以Web日志数据一般会是大量的、冗余的、不确定的。而粗糙集理论是一种处理不精确、不相容、不完全数据的有效工具。粗糙集约简理论在处理海量数据,消除冗余知识等方面取得了很好的效果。在Web日志挖掘的模式发现阶段前,应用粗糙集的属性约简理论可以去掉Web日志中的大量冗余数据,精简原有知识,从而提高模式挖掘的效率。   本文首先阐述了粗糙集理论的基础知识,为后面粗糙集属性约简理论的研究做了一个理论铺垫。从粗糙集约简代数定义出发,研究了各种约简算法,并比较了几种约简算法的特点和性能。针对属性重要度的代数和信息两种不同表示方式的讨论后,得出对论域中对象的分类,从不一致对象的角度出发,定义了新的属性很重要度,并提出了基于哈希表的计算方法,最后提出改进的启发式属性约简算法。经实验证明,该算法的性能要优于一般的算法。文章还研究了Web日志挖掘的概念以及相关技术,并在现实的Web日志数据上进行Web日志挖掘过程的实施。
其他文献
随着网络的应用,越来越多的企业和用户将信息通过网络进行传送,网络上的数据量成爆炸性的增长,这给网络中的路由器或者防火墙性能提出了更高的要求。随着下一代网络的兴起,音
生物监测技术与化学分析法相比具有先知性、预见性和警示性。利用生物监测技术建立水环境安全预警系统是目前国内外环境科学研究的热点,以鱼类作为水质监测生物载体的水质在
网络的普及推动了视频会议的发展。本文首先介绍了视频会议的起源、发展及意义;然后阐述了流媒体技术的相关知识;接着介绍了Macromedia Flash Media Server(FMS)技术的特性,
随着智能移动设备和定位技术的快速发展,LBS已经被广泛应用于移动应用软件之中,通过使用地理位置信息,这些应用在为用户带来更加个性化和有针对性服务的同时,也给用户地理位
无线传感器网络集成了传感器、计算机和网络三大技术,是一种全新的信息获取和处理技术。在无线传感器网络中,节点首先采集各种信息,然后对采集的数据进行内部处理,最后利用各
人脸检测最初是人脸识别问题中的一个子问题。关于人脸识别的研究最初开始于上个世纪六、七十年代,一直到现在仍然是一个研究的热点问题。最初的人脸识别在定义问题的时候主
近年来,随着数据库技术在世界上的不断普及和推广,数据库在各行各业中得到了广泛的应用,将数据库技术和图像处理技术结合在一起使用也已经成为数据库应用的一个重要领域。利
随着中国经济的快速发展,人们的生活水平不断提高,网络在中国得到迅速普及。截止到2015年底,中国的网民数量已达到了6.88亿。再加上网络设备和传输介质等硬件的更新换代,网速
随着移动通讯网络的高速发展,特别是目前GPRS和3G技术的推出,手机上网已成为一种趋势与潮流。手机已成为我们获取信息的重要工具。然而,当我们需要利用手机查询一些如电话号