论文部分内容阅读
对国内外Web使用挖掘研究情况分析可知,以往的频繁访问序列挖掘算法在动静Web点击流环境中仍存在诸多问题。单纯的Web关联规则挖掘忽略了会话的时间特性;简单的频繁访问序列挖掘由于没有采用合理的约束思想,挖掘出的频繁访问序列相当庞大;增量挖掘方法大部分是处理单个序列内部的插入,很少涉及序列本身往数据库中同时插入和删除的问题;在处理动态Web点击流时,基于False-Positive方法的算法很难处理挖掘查全率和精度之间的矛盾。这几类问题的研究对电子商务、商业智能以及市场决策等领域具有重要的意义。本文首先设计了两种极大频繁访问模式挖掘算法。第一种算法采用双向驻留时间约束会话中每个页面,有效限制了无意义页面的出现。第二种算法根据双向约束思想对访问序列的持续时间进行约束,解决了较长访问序列带来的问题。在挖掘带有时间约束的极大频繁访问序列时,这两种算法的性能优于同类算法GENmax、FPmax、SPADE、MSPS和GSP。其次,本文提出了解决同时往数据库中插入和删除整个访问序列问题的方法,根据序列增量模型,设计了一种增量式频繁访问序列挖掘算法。该算法采用约束策略和网站拓扑技术,仅从插入的和删除的序列中挖掘新的频繁访问序列,缩小了频繁访问序列的搜索空间,减少了候选子序列的规模。在利用先前挖掘结果和约束思想的前提下,该算法在处理时间和内存消耗上比算法IncSpan和MFTP有明显优势。最后,提出了解决访问序列查全率和挖掘精度之间的冲突问题的方法,基于False-Negative方法和时间敏感滑动窗模型,提出了一种动态Web点击流中挖掘频繁访问序列算法。该算法利用带约束的加权调和计数函数来计算每个访问序列的支持度计数,通过调节因子ξ来调整相关比率ρ的大小。在变化最小支持度阈值和调整调节因子ξ大小的情况下,该算法能够同时满足访问序列查全率和挖掘精度的要求,其性能优于算法Lossy Counting和算法MineSW。本文使用Java语言和C++语言对上述四种算法进行实现,分别对四类数据集M0606A、M0607B、BMS-WebView-1和BMS-WebView-2进行极大频繁访问序列和频繁访问序列挖掘,通过对不同挖掘结果的对比分析,所提出的四种算法在解决各自的问题上是有效的。