论文部分内容阅读
电子商务的流行使数据挖掘成为商业竞争中一项必不可少的技术。用户对网站的访问产生了海量的原始数据,这些数据以Web日志文件格式存储于Web服务器中,没有数据挖掘技术便不可能将这些海量数据转化为有用的信息。本论文主要研究Web使用挖掘,因为可以通过Web使用挖掘了解到用户的浏览行为模式,而这恰恰是电子商务推荐系统成败的关键。Web使用挖掘是数据挖掘技术在Web日志文件上的应用,其目的是从中获取有价值的信息为电子商务推荐系统所用。本文首先提出了一个电子商务推荐系统的体系结构,然后详细讲解了该系统中各个模块的构造、功能以及如何相互协作从而最终完成推荐任务。并着重研究了数据预处理和序列模式挖掘的实现。数据预处理是Web使用挖掘过程中关键一步,其处理结果的质量直接影响后续步骤比如事务识别、路径分析、关联规则挖掘和序列模式挖掘等的效果。提出了数据预处理算法USIA,不但在一次处理过程中可以识别出用户和会话,而且实验证明其处理效率较高而且识别准确。为了满足关联规则和序列模式挖掘的需要,提出了一个简洁但是高效的算法Predictor。经第一阶段实验检验基本满足了页面实时推荐的需要,而且该算法同时实现了数据的增量挖掘。所有实验数据完全为实际网站Web日志数据,非模拟生成,进一步保证了实验结果的准确性和可靠性。