基于关联规则的Web日志挖掘系统的研究与设计

来源 :东北大学 | 被引量 : 0次 | 上传用户:as55059550
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
Web日志挖掘通过对日志记录的挖掘,发现用户访问页面的模式,从而进一步分析和研究日志记录中的规律,以期改进站点的性能和组织结构,提高用户查找信息的质量和效率。 Web日志挖掘数据预处理的对象是原始的日志文件中包含的数据,其中不完整的、冗余的、错误的数据需要进行处理。本文将针对数据预处理过程中涉及到的关键问题和技术进行详细的剖析和论述,提出了一个数据预处理模型。 关联规则挖掘是Web日志挖掘的一个重要的关键技术,它可以发现网络日志访问记录中隐含的相互关系。本文分析了经典频繁项集挖掘算法—Apriori算法,针对该算法中存在的效率瓶颈问题,提出了改进的挖掘算法-M2 Apriori(Matrix2 Apriori)算法,并实现了该算法。改进后的算法通过频繁1-项集生成矩阵的转置M与矩阵M相乘来获得频繁2-项集,从而减少了Apriori算法生成频繁2-项集的时间开销。理论和实验证明,改进的算法具有良好的性能。 本文设计了一个基于关联规则的Web日志挖掘系统,讨论了Web日志挖掘中的关键技术:数据准备、模式发现和模式分析,详细介绍了该系统的体系结构、各模块的功能、挖掘流程、采用的算法,详细地分析了预处理阶段的各项任务。
其他文献
随着计算机网络技术的高速发展,计算机病毒越来越猖獗,计算机安全越来越受到人们的重视。而随着病毒在网络上的飞速蔓延,传统防御病毒的手段和工具显示出越来越多的缺陷。其中最
最佳离散信号及其设计在现代通信、雷达、声纳、制导、空间测控,以及电子对抗等有线和无线系统的优化设计中,扮演着越来越重要的角色。结构优良的信号可以提高系统的抗干扰、
近些年来,随着影像技术的蓬勃发展与应用,在越来越多的医疗诊断中,影像技术被用来提高医生诊断的效率并降低误诊率。在这种情况下,医疗机构需要处理越来越多的医学影像,而其
本文结合中国石油具体项目,详细阐述了一个QHSE(Quality, Health, Safety & Environment)环境下的商务智能系统的设计和实施过程,并详细介绍了基于这个新的信息平台的应用—
命名实体主要包括人名、地名和组织机构名,是标识某一特定实体的词或词组。而双语命名实体等价对是指来自两种不同语言的具有互译关系的命名实体对。现阶段全球化进程不断加
随着Internet的快速发展,互联网上的知识资源也在不断的膨胀。然而,网页如此繁杂以至于人们无法快速获取自己想要的信息。搜索引擎的出现,虽然在很大程度上缓解了这个问题,但
伴随着人类生活水平的不断提高,出租车已经成为城市人出行的重要工具之一。尤其在上下班高峰期,以及节假日,出租车常出现供不应求的情况。但是在其他时间段,出租车的空载现象又比
基于内容的图像检索(Content Based Image Retrieval,CBIR)是一种根据图像的内容(人对于图像的理解和认识)来衡量图像之间的相似度以实现图像检索的技术,目的是为了有效地组织
分形变换理论已在图像处理、计算机视觉领域获得了一系列成功应用。分形变换的实质是找到图像内部存在的灰度自相似性迭代函数系数,将图像用迭代函数的参数来表示。 将分形
电子支付系统是电子商务系统的重要组成部分,与电子信用卡和电子支票相比,在电子商务活动中采用电子现金支付有很多好处,其中之一就是电子现金系统能为用户提供匿名性,让在交易过