基于序列模式的Web挖掘的研究

来源 :长春理工大学 | 被引量 : 0次 | 上传用户:fjutjwzx4
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
从相当规模中的数据中发现数据的模式规律是数据挖掘的意义所在,数据挖掘作为一门学科,刚开始时是针对传统意义上的数据库中的数据而言的。伴随着数据库挖掘技术的成熟,人们越来越认识到这门学科的潜在价值,也投入了越来越多的研究和关注,数据挖掘的确也给人们带来了很多丰硕的成果。近几年来,计算机的迅猛发展带动了以计算机为平台的互联网的崛起,互联网的崛起引起了网络Web数据量的不断增大,人们将数据挖掘技术也应用到了Web数据上,但是由于Web上数据的庞大性和异构性,进行Web数据挖掘面临着很多的问题和难点。Web数据挖掘按照挖掘的对象的形式不同可以分为对Web内容的挖掘、对网页链接结构的挖掘和对各种日志信息的挖掘,本文主要结合传统数据库的序列模式挖掘思想,对Web的访问日志信息进行分析和研究,序列模式挖掘是数据挖掘方法的一种,它从数据的前后顺序的序列的角度入手进行数据的挖掘。但是从Web上获得的访问日志信息是不能直接加工的,因为这些日志信息杂乱无序、包含了很多挖掘过程不需要的和有异常的数据,如果不去掉或者处理这些数据,挖掘过程难以进行,挖掘结果也是难以符合用户需求的,所以对数据的预处理过程是必不可少的,通过预处理,将原始数据去冗、整理、完善,以符合挖掘算法的要求。以序列模式现有算法为基础,本文提出一种改进的针对Web日志挖掘的算法,该算法借鉴位图的思想,设计了一种存储数据的结构形式,在这种结构的辅助下,对Web访问日志进行挖掘不仅去掉了产生候选序列的过程从而节省了开销,而且对序列的支持度计算也更加的快捷。同时,改进算法还吸收了序列模式挖掘的PrefixSpan算法的前缀概念,以前缀为引点,在扫描数据库的过程中不断修改辅助存储结构的值来减小序列范围。通过实验数据的比较,改进算法性能上有明显提高,但是不能忽视的是,该算法在处理中小规模数据时处理效率很高,但在处理大规模数据时效率提升的就不是很明显。
其他文献
随着社交网络及多媒体技术、通信服务的发展,数码设备的普及,数码视频/照片爆炸式的增长,社交网络媒体相关的研究日渐成为热点。目前网络资源检索主要的手段还是基于关键词的
图形图像作为形象符号可以激发人的形象思维,使得本来复杂的原理和规律变得易于被人理解。近些年来,随着计算机可视化技术的不断发展,更多的原理和规律被计算机述诸形象,视觉
随着信息时代的来临,企业数据量正成爆炸式增长,企业的生存对数据的依赖程度越来越高。当灾难发生时,如何迅速完整的恢复数据,是当前最受工业界和学术界普遍关注的问题之一。集中
无线传感器网络(WirelessSensorNetworks,WSNs)因其广泛的应用而备受关注,其在军事、经济、科技和生活等方面具有非常巨大的使用潜能以待发掘和研究,是近年来比较热门的研究课题。
随着人工智能和计算机科学技术的不断发展,智能Agent系统在越来越多的领域起到举足轻重的作用。对于智能Agent系统而言最主要的问题就是适应周围动态变化的环境和对任务进行动
随着信息技术的迅速发展,许多企业为了提高管理水平,纷纷建立了自己的信息管理系统。但是这些信息系统的数据源彼此孤立,数据存储方式可能各不相同,难以实现数据共享,从而形成了信
枣树为我国第一大干果树种,也是重要的药用植物和生态经济树种林。随着枣树栽培面积和规模的迅速扩大,枣树病虫害的发生和危害也逐年严重,给枣农带来巨大的经济损失。针对枣
企业资产管理系统(Enterprise Asset Management System,简称EAMS)是一种具有工作流特性的信息化解决方案。它不仅可以帮助资产密集型企业更加高效地完成对资产设备的跟踪、
本文提出了一种基于遗传算法的基因杂交方法。该方法通过对传统基因杂交方法的研究和生命信息的分析来获得基因的数字化信息,通过使用自适应遗传算法来进行杂交。在自适应遗传
网络态势指由多种网络设备的运行状况和网络行为、用户行为等构成的整个网络当前的状态和变化趋势。网络态势感知技术是一种能够评价当前以及未来一段时间内网络安全状况,并且