从万维网日志中挖掘访问序列模式的算法研究

来源 :华中科技大学 | 被引量 : 0次 | 上传用户:lxl0003
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
近年来,数据挖掘和万维网应用研究是信息时代两大活跃的研究领域,将数据挖掘技术应用于万维网就称为Web数据挖掘。Web数据挖掘的内容可以分为三个方面:一个是Web内容的挖掘,主要是从庞大的网络数据资源里发现信息;另一个是Web结构的挖掘,主要是通过大量的Web链接信息来识别权威的Web页面;还有一个是Web访问模式的挖掘,主要是从网站的访问日志文件中挖掘出用户访问模式,包括关联规则、序列模式等。对于从Web日志中挖掘出用户的访问序列模式,可以采用通用的序列模式挖掘算法。但是对web日志进行预处理后,得到的web访问序列数据库中的序列长度一般都很长,此时采用通用的序列模式挖掘方法就会产生数量巨大的候选模式,从而降低了挖掘速度。为了减少Web访问序列模式挖掘中产生的候选模式,加快挖掘速度,提出了一种新的Web访问序列模式挖掘算法WAPM(Web Access Patterns Mining)。该算法简化了挖掘过程中候选模式的生成操作和支持度的计算,主要包含了以下两点内容:首先设计出一个新的数据结构WAS-tree(Web Access Sequence tree)来记录访问序列和它的计数,避免冗长的支持度计算。在本算法中,只要扫描两次原始的访问序列数据库就可以构造出一棵WAS-tree。一旦构造出一棵WAS-tree后,所有剩下的挖掘工作都在该树上进行,不再需要访问原始的web访问序列数据库;然后提出了一个高效的递归算法从WAS-tree中挖掘出所有的访问序列模式。在挖掘过程中使用了条件搜索技术,使得只有那些满足最小支持度阀值的序列模式才被考虑,因此不会产生任何候选模式,加快了挖掘速度。最后给出了在Windows2000 Server 平台上的基于WAPM算法的WAP-Miner系统实现。
其他文献
论文主要研究了多Agents系统,并以FIPAAgent抽象架构为参考模型,构建了一个InternetAgents平台,由此探讨MAS(Multi-AgentSystem,多Agent系统)的组成形式、各Agent的通讯以及合作
随着通信技术的迅猛发展,飞速膨胀的通信量成了下一代移动通信网络中最关键的问题。而中继,以其性能佳,易于拓展,部署方便等优势,在新一代网络标准中占有一席之地。本文挑选
Internet和Web技术的发展为现代远程教育提供了新的教育手段和技术支持。基于Internet的现代远程教育通过构建一个开放性的教学环境,克服了传统教育在时间、空间上的限制,对于
学位
作为计算机科学研究领域的热点问题之一,基于图像的三维重建渗透了摄影测量学、计算机图像处理、计算机视觉学科等相关技术,为了确定场景图像的几何结构,该技术通过各种裁剪操作
作为近年来发展最为迅速的几项新技术之一,工作流技术是实现企业业务过程建模、仿真分析、优化、管理与集成,从而最终实现其自动化的核心技术。采用工作流管理将使企业按照要实
Internet应用的普及,要求企业内部网的职能范围超越物理位置上的限制,同时,网络上传输的数据也需要越来越高的安全保障。随着应用程序从C/S结构向Web的迁移,如何在不影响外部
内存数据库系统(Main Memory Database System)是实时系统和数据库系统的有机结合。当前,内存数据库系统广泛应用于航空、军事、电信、电力、工业控制等许多领域,而这些应用领域大部分都是分布式的,因此分布式内存数据库系统成为新的研究热点。 论文以分布式内存数据库系统为研究对象,在C++环境下,结合面向电网监控系统的分布式内存数据库系统的开发,得到以下几方面的研究成果:
统计学习理论是一种专门研究有限样本情况下机器学习规律的理论,它不仅考虑了对推广能力的要求,而且追求在现有有限信息的条件下得到最优结果。支持向量机是在统计学习理论的
多年来,企业为了赢得市场竞争,都在不断进行内部改造,而企业运作方式的变化引发了企业需求的变更。对于企业MIS系统这类高度复杂、需求持续变化的应用软件,系统功能和其系统实现