基于Web点击流的频繁访问序列挖掘研究

来源 :燕山大学 | 被引量 : 0次 | 上传用户:erkonga
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
对国内外Web使用挖掘研究情况分析可知,以往的频繁访问序列挖掘算法在动静Web点击流环境中仍存在诸多问题。单纯的Web关联规则挖掘忽略了会话的时间特性;简单的频繁访问序列挖掘由于没有采用合理的约束思想,挖掘出的频繁访问序列相当庞大;增量挖掘方法大部分是处理单个序列内部的插入,很少涉及序列本身往数据库中同时插入和删除的问题;在处理动态Web点击流时,基于False-Positive方法的算法很难处理挖掘查全率和精度之间的矛盾。这几类问题的研究对电子商务、商业智能以及市场决策等领域具有重要的意义。本文首先设计了两种极大频繁访问模式挖掘算法。第一种算法采用双向驻留时间约束会话中每个页面,有效限制了无意义页面的出现。第二种算法根据双向约束思想对访问序列的持续时间进行约束,解决了较长访问序列带来的问题。在挖掘带有时间约束的极大频繁访问序列时,这两种算法的性能优于同类算法GENmax、FPmax、SPADE、MSPS和GSP。其次,本文提出了解决同时往数据库中插入和删除整个访问序列问题的方法,根据序列增量模型,设计了一种增量式频繁访问序列挖掘算法。该算法采用约束策略和网站拓扑技术,仅从插入的和删除的序列中挖掘新的频繁访问序列,缩小了频繁访问序列的搜索空间,减少了候选子序列的规模。在利用先前挖掘结果和约束思想的前提下,该算法在处理时间和内存消耗上比算法IncSpan和MFTP有明显优势。最后,提出了解决访问序列查全率和挖掘精度之间的冲突问题的方法,基于False-Negative方法和时间敏感滑动窗模型,提出了一种动态Web点击流中挖掘频繁访问序列算法。该算法利用带约束的加权调和计数函数来计算每个访问序列的支持度计数,通过调节因子ξ来调整相关比率ρ的大小。在变化最小支持度阈值和调整调节因子ξ大小的情况下,该算法能够同时满足访问序列查全率和挖掘精度的要求,其性能优于算法Lossy Counting和算法MineSW。本文使用Java语言和C++语言对上述四种算法进行实现,分别对四类数据集M0606A、M0607B、BMS-WebView-1和BMS-WebView-2进行极大频繁访问序列和频繁访问序列挖掘,通过对不同挖掘结果的对比分析,所提出的四种算法在解决各自的问题上是有效的。
其他文献
近年来随着云计算的兴起,WEB2.0应用的增多,大数据越来越成为IT行业内被大家关注的热门话题。大数据时代其中最显著的特点就是数据量大,数据种类繁多,而关系数据库应对这些海量的
随着我国公路交通事业的迅速发展,智能交通管理系统已成为了人们关注的焦点问题。车辆牌照识别系统作为智能交通管理系统的一部分在桥梁路口自动收费、停车场自动管理及违章车
含有多媒体对象的时空间数据库的挖掘是一个应用前景广阔的重要课题。研究者已经提出了许多关于时间、空间数据挖掘的技术和方法,尽管取得了令人振奋的成果,但时空数据的挖掘还
移动网络带宽较窄,网络质量差已经成为影响移动设备用户体验的瓶颈,因此如何同时使用多条网络接口进行带宽合并,进而来提高网络的传输能力,成为目前研究的热点。传统带宽合并方法
变化是软件开发领域和业务领域中一个基本的特征。当前信息系统面临着各种形式变化的挑战,包括信息系统所处业务环境的变化及信息系统技术本身的变化。可重构信息系统为企业快
随着计算机图形技术的发展,计算机真实感图形已深入到人们的日常工作、学习、生活中。人们所要绘制的场景模型越来越复杂,一方面,借助各种建模方法,人们可以建立高度复杂的景物模
学位
RS与GPS为空间信息的采集提供了技术支持,GIS从定量的角度建立了空间信息处理与应用的理论和技术体系。但是,空间信息是复杂的,从量上来看是海量级的;从种类上看不仅包含数值
数据容灾近年来受到越来越广泛的关注,这主要是由于保护信息资源的重要性实际上远远大于保护计算机系统本身。建立容灾系统是保证计算机系统数据完整性和可用性的一种重要措
传统的文档检索包括基于关键字的检索和基于内容的检索,基于关键字的检索直接通过标注文本的匹配来完成文档匹配,但标注的主观随意性大,检索效果不好;基于内容的检索利用多媒体的
网格计算作为一种建立在互联网上的大规模、动态,异构的分布式计算的新一代基础设施而出现,将分布在不同地理位置的计算资源通过国际互联网和网格软件组成新的计算环境.网格