论文部分内容阅读
Web日志挖掘需要对用户的浏览模式做出归纳和预测,Markov模型是一种简单而有效的预测工具,但现有的预测方法存在着一些不足之处。因此,改进基于Markov模型进行用户浏览路径预测的方法,成为Web日志挖掘的一个新课题。本文对国内外关于Markov模型浏览路径预测的研究现状进行了综合分析,指出了现有的预测方法在适用范围及花费时间上存在的问题,提出了改进方案,对如何改进基于Markov模型的预测方法这一问题进行了研究。本文首先提出了基于Markov模型的网页类预测方法。用传统Markov模型进行预测,无法反映用户在不同语义类别网页间的浏览习惯。网页类预测方法针对这个问题,利用多维层次化数据聚集的思想对网页分类,并通过在网页类别上进行路径预测得到类路径,从而弥补了传统Markov模型的不足。最后利用实验验证网页类预测方法的有效性。其次,提出了动态分类预测模型,主要解决多Markov链模型的学习算法时间复杂度过高的问题。动态分类预测模型采用了聚类的思想对用户分类,在每一类用户上进行浏览路径预测,同时能动态更新用户的特征。该模型下的分类算法在时间复杂度上,明显优于多Markov链模型。最后,通过实验对传统模型算法、多Markov链模型算法和动态分类算法进行了分析,比较了这三种算法的实验结果,并基于实验结果分析了动态分类预测模型的空间复杂度,从而验证了动态分类预测模型的有效性。