基于聚类划分的Web日志关联规则增量式挖掘方法研究

来源 :南昌大学 | 被引量 : 0次 | 上传用户:feihuaxp
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
万维网作为广泛分布,巨大的全球信息服务中心,包含了各种动态,庞大的访问和使用信息,发现信息背后的知识,对于用户访问和个性化服务具有重要的意义。本文针对Web服务器日志的庞大,动态性丰富,高复杂度和局部信息有用的四大特点,以发现Web用户访问行为中潜在的规律和知识为目的,以Web日志关联规则增量式挖掘为手段,提出了一种基于聚类划分的Web日志关联规则增量式挖掘方法。首先,本文设计了一种基于聚类划分的Web日志关联规则挖掘方法。通过基于自组织神经网络(Self-organizing Feature Map,简称SOM)的聚类技术,对数据集进行任意水平均分为K组的数据子集,组成K个SOM神经网络训练集合,利用常规的SOM优化策略,对各组Web用户行为特征进行粗聚类划分;以每一类用户访问行为群为分析对象,由于每类用户访问行为特征相似,在这样数据集中的类中运用基于FP-growth(frequent-pattern growth)挖掘算法,既能有效的利用FP-growth无需产生候选项集的优势,又能减少FP树的分支,进而减少条件FP树的数量。然而一类用户的访问信息并不表示该类用户对没有访问到的页面不感兴趣,因此将每类用户访问群的频繁项集即局部频繁项集合并,重新评估得到全局频繁项集,进而挖掘Web用户访问行为的潜在知识和规律。其次,本文设计了一种基于聚类划分的Web日志关联规则增量式挖掘方法,该方法是基于上述的算法进行改进的,通过对动态信息丰富的新增Web日志运用上述的算法,得到新增数据的频繁项集,利用旧频繁项目集和新增频繁项目集,依据频繁项目集的性质,更新频繁项目集。该算法大大减少了数据库扫描次数,无需产生候选项集,有效的减少了FP树的深度和宽度,尤其是在类似于Web日志这种数据量大,动态信息丰富的数据库中,该算法的优势更加明显。最后,采用C#.net技术设计实现Web用户访问行为的关联模式挖掘模型,对预处理后的Web服务器日志数据进行实验分析,测试并评估该模型性能。实验结果表明,该算法能有效地处理大数据量下,动态丰富的Web日志数据挖掘,提高Web日志关联规则增量式挖掘的准确度和适应性。
其他文献
随着网络技术的不断发展,Internet现已逐步进入到由IPv4向IPv6过渡的阶段。作为一个网络层协议,从IPv4到IPv6的过渡是在IP协议层进行了更替和升级,对网络架构和其它层的协议
随着信息技术的发展,越来越多的企事业单位迫切希望利用信息技术提升工作效率和提高信息资源的利用率。而由于信息化项目的复杂性,在信息化建设的过程中强烈需要信息化专家对项
人脸表情识别(FaceExpressionRecognition,FER),是指通过计算机技术分析特定的脸部表情及变化,实现人机之间更智能化的监控。面部表情识别的研究目标是让一些人工智能产品能够
随着移动互联网的发展,智能设备成为了一种趋势。智能设备成为人们交流、通信以及获取资讯的主要方式。它不仅对人们的生活产生巨大的影响,还为人们带来了乐趣。为了获得更好的
随着计算机技术的快速发展,基于计算机视觉和人工智能技术的人脸识别技术也得到了大力发展,且被广泛应用到身份识别验证、门禁系统、智能视频监控以及一些软件的登录验证等领
图书馆是学习知识的重要场所,馆藏图书数量巨大、类别齐全、质量不一。从中找寻所需的高质量图书,已成为读者借阅图书的迫切需要。现有的图书馆系统中虽然保存了大量的读者信息
传统的关系数据库查询须指出将要查询的属性名,不能像搜索引擎那样自由地进行关键词查询。关系数据库关键词查询(KSORD)可以在不了解关系数据库结构的前提下,实现对关系数据
企业资源规划(ERP)系统是一种将适合于企业的管理思想贯穿其中的企业管理系统。ERP系统的核心模块主要有进货、销售、库存、人事管理、财务管理等。  ERP软件的生命周期长,软
虚拟现实技术在各行各业的应用都得到了飞速的发展,在这样一个网络时代,越来越多的人们利用网络环境来完成现实生活中的各项活动,如:交友、娱乐、购票、模拟驾驶、消防演习、虚
人脸识别是模式识别领域的一个重要研究课题,已被广泛应用于门禁系统、考勤系统、安检、刑事案件侦破等领域中。与其他生物识别技术相比,人脸识别具有非接触式、可靠性强等优点