论文部分内容阅读
随着信息技术的发展,互联网已经成为人们不可或缺的信息来源。网络信息资源的爆炸性增长导致信息过载问题日益严重,互联网上的信息量大大超出互联网用户的需要,大量无关的信息严重干扰了用户对有户用信息的准确选择。海量的信息资源供给和有限的用户需求之间的矛盾,使得我们必须寻求一种能够快速、准确地从浩瀚的信息资源中找到所需信息的方法。正是在这样的需求驱动下,个性化服务技术应运而生,个性化服务是一种有针对性的服务方式,依据各种渠道对资源进行收集、整理和分类,向用户提供和推荐兴趣信息,以满足用户的需求。作为个性化服务技术的核心内容之一,用户特征分析的目标是分析用户的兴趣爱好、行为等特征信息,用户特征分析是否准确在很大程度上影响和决定个性化服务系统所提供的服务质量。运营商在为用户提供互联网访问服务时,往往会存储用户的访问日志数据。这些访问日志蕴藏着丰富的用户特征信息。本文以某运营商的互联网访问日志数据为基础,通过对其进行分析挖掘,从中得到用户的兴趣特征。本文的工作成果主要有如下四个方面:(1)提出了基于MapReduce的用户特征项提取并行化算法。该算法以用户的访问页面内容为基础,依据词条在文档中权重提取出用户特征关键词。本文详细介绍了该算法的并行化设计,并且在Hadoop上进行了实现。(2)给出了具有相似特征的用户的挖掘算法。该算法首先对用户的访问页面进行聚类,然后根据聚类的结果计算用户兴趣特征相似度。本文用MapReduce、Mahout以及Hive提出了算法的并行化实现策略,在Hadoop平台上实现了该算法。(3)提出了基于互联网访问日志的独立用户识别算法。该算法综合利用访问日志中IP、UserAgent、Cookie等字段分析用户访问规律,采用先细分再合并的思路对访问口志进行分析。依据该思路,本文首先识别出独立浏览器的日志,然后通过帐号关联将浏览器日志合并成独立用户的日志,实现了对用户的识别。(4)给出了基于互联网访问日志的用户特征分析系统设计方案和实现。在本文的设计方案中,用户特征分析系统由日志预处理、文本预处理、用户特征分析等三大模块组成。本文详细设计了其中各个模块及其子模块的功能及其实现。