论文部分内容阅读
随着互联网的普及和发展,人们之间通过网络来进行信息交流逐渐频繁,然而,如何进行有效的信息检索随之成为网民面临的难题之一。搜索引擎通过将杂乱无序的信息组织起来,建立有序的索引文档,为人们进行有效的信息检索提供了极大的方便。用户与搜索引擎交互的过程中会产生了大量的查询日志。这些用户查询日志中包含着许多和用户相关的信息,可以直接捕捉到用户的显性需求并发掘其隐性需求,因此对用户日志的研究越来越引起人们的关注。用户查询日志受到各大互联网公司尤其是搜索类的互联网公司的重视,它们都期望通过精准及时的日志分析和挖掘来发现用户的行为特征,以此提高用户使用的满意度,进而提升企业的市场竞争力。另一方面,随着日志数量指数式的增长,如何有效快速地处理大量的日志成为一个挑战,这对于传统的数据库的存储模式和服务器的计算性能都是考验,而Hadoop是一个能够对大量数据进行分布式处理的软件框架。利用分布式技术存储并计算海量日志,使得对查询日志的研究变得更加方便。基于以上现状并阅读大量参考文献后,本文通过对搜索引擎日志产生的过程进行详细分析,以Hadoop为平台,运用HDFS分布式文件系统存储海量日志并采用MapReduce计算模式,设计了一个基于海量查询日志的用户行为分析平台,主要包括四个模块,即日志采集模块、日志存储模块、日志分析模块和数据可视化模块。其中,日志分析模块为整个系统的重点,主要从关键字排名、URL排名、主机排名、用户搜索统计、时间段统计、日搜索统计六个维度对搜索日志进行了分析,并以Web文本挖掘的流程为思路对用户查询日志进行挖掘。最后,通过搭建实验环境来验证本平台,分析了分布式平台的运行效率,对系统平台进行性能优化,并对优化前后系统运行耗时进行了对比分析。通过实验数据表明,论文中所设计的基于查询日志的用户行为分析系统具有良好的有效性和可靠性。