论文部分内容阅读
随着Web上用户访问信息的不断增加,特别是Web服务器可提供大量的日志文件,使得有可能对这些大数据集进行知识挖掘,例如,对用户未来的访问进行预测,提出了一种利用服务器日志文件,运用N元(N-gram)预测模型对用户未来可能进行的Web访问请求预测。这种模型会选择性地对用户可预测的请求进行预测,从而大大提高了预测精度。实验证明,在自然语言中普遍适用的N元预测模型同样适用于网页预测。同时,采用了一种有效的简化手段,大大压缩了模型的大小,使得5元模型和传统的2元模型大小基本相同,而预测精度提高了1倍。该结果可以