论文部分内容阅读
随着信息技术的不断发展,互联网用户不再满足于以往习以为常的上网搜索、即时聊天等主动行为,而是希望能够针对自己的兴趣、爱好、性格、行为等特点,接受具有针对性的推荐服务。由此数据管理平台和用户兴趣建模技术孕育而生,并在近几年得到了广泛的研究和应用。作为数据管理平台的核心内容之一,建立用户兴趣模型的目标是从海量用户搜索数据中分析用户的兴趣爱好、行为特征等信息。因此用户兴趣模型的准确性很大程度上决定了数据管理平台的有效性和可用性。本文针对海量用户搜索数据,提出一种面向运营商数据管理平台的用户兴趣模型和采纳该模型的用户兴趣分析系统。由于需要处理的数据量较大,本文在Hadoop分布式系统架构下利用MapReduce分布式编程模型进行用户兴趣分析系统的实现,并在Hive数据仓库中存储输入数据和输出数据。总结来说,本文的工作成果主要体现在以下几个方面:1)根据用户搜索数据和电子商务网站的分类库数据,结合TF-IDF算法和向量空间模型,递归地回溯用户兴趣权重列表,完成用户兴趣模型的建立。2)引入时间遗忘机制进行用户兴趣模型的动态更新,有效地解决了用户兴趣随时间变化的问题。3)在Hadoop分布式系统架构下利用MapReduce分布式编程模型进行用户兴趣分析系统的实现,有效地解决了用户兴趣分析系统的耗时问题。4)采取查准率和召回率两个评价标准,分别对用户兴趣分析系统进行性能评价,并对单机环境下和Hadoop分布式环境下的系统实现进行时间性能对比。通过实验,证明用户兴趣分析系统具有较好的可行性和可用性。