【摘 要】
:
随着互联网的飞速发展以及网站数量的急剧增加,各网站对用户的争夺变得越来越激烈。为了更好的吸引和留住用户,需要更好地了解网站用户的使用行为,研究并分析搜索引擎的日志
【出 处】
:
中国科学院大学(中国科学院工程管理与信息技术学院)
论文部分内容阅读
随着互联网的飞速发展以及网站数量的急剧增加,各网站对用户的争夺变得越来越激烈。为了更好的吸引和留住用户,需要更好地了解网站用户的使用行为,研究并分析搜索引擎的日志已成为在海量数据中获取用户行为有效数据的主要方法。基于此,为了更好地捕捉网站用户现实需求,了解用户意愿,本文设计和实现了一个网站搜索日志分析系统,从而帮助网站能更好的服务客户,并实现网站的快速发展。不同网站的搜索引擎针对的目标群体不同,本文的研究对象是某电子商务行业网站的搜索日志,通过建立日志分析系统来了解网站的用户行为模式,并挖掘其潜在需求。本系统设计中存在的最大困难之处在于如何搜索海量的日志数据,并实现搜索的高速性和准确性。主要研究内容如下:1,搜索日志的收集格式使用NCSA扩展日志格式,网站页面各分析项使用标签记录,使用开源Apache和Flume海量日志采集系统进行日志收集,使网站日志收集具有高效,准确,及时等特点,减轻了开发和测试的压力和负担,同时降低了风险。页面各统计项通过添加标签使分析日志具备了简单,准确的特点,降低了日志分析的负担。2,使用分布式处理平台Hadoop对日志进行分析,论文中主要分析基于HDFS文件存储和Map/Reduce的分布式处理的关键技术,对日志分析的实现过程进行了详细的描述和分析,通过使用Hadoop解决了海量日志分析处理的时效性和准确性的问题,并且代码开发非常简单,难度大幅度降低,项目推进的效率提升明显。3,设计并实现了用户行为的分析模型和用户信息质量的评分模型,通过这两个模型我们可以获知用户的网站浏览偏好以及用户信息的质量信息,以及关键词相关性的信息,建立了用户的偏好浏览模型和信息聚类模型,为信息聚合和个性化的搜索提供了数据支撑。最后,通过对上线系统运行两周后的结果分析,并且按照分析结果搜索重新进行排序设置以及聚类展示,很好地提升了使用效果,系统也达到了预期的目标。
其他文献
抗生素类物质在水环境中大量残留是全世界面临的一个严峻问题,它对人类健康和水生态环境构成严重威胁。四环素是一种具有代表性的抗生素类物质,传统的生物法、物理法很难对其实现高效降解。可见光催化技术属于新型高级氧化技术的一种,具有以太阳能为能源、没有二次污染等优点,在抗生素类废水处理方面具有广阔的应用前景。新型BiOCl光催化剂作为铋系催化剂的代表性材料,具有独特的层状结构和催化剂稳定的特点,受到了研究者
近年来翻译领域的研究不再限于文学、美学角度,更多转向语言学角度。随着认知语言学的兴起,有关英汉运动事件的研究成为重要课题。翻译英汉运动事件的译者需要将原文的运动事
全光逻辑的发展经历了由单一逻辑功能到可重构逻辑功能的阶段,而近年来伴随着人工智能的热潮,应用于全光通信网络和光计算中的智能化信号处理技术逐渐成为研究热点。全光逻辑
随着经济的快速发展,各国对能源的消耗不断增加,在经济利益与环境跋扈的权衡与取舍中,清洁能源技术越来越受到各国政府的鼓励和推广,其中的光伏发电正由于其技术不断成熟,产
<正> 一、区域概念如何界定和划分区域(Region),是区域经济理论研究中首先面临的一个根本性问题。然而,在西方,区域一词迄今还没有明确的定义,其大小也完全取决于研究的目的
宁波市自2013年相继发布宁波市出口集装箱运价指数Ningbo Containerized Freight Index(简称“NCFI”)和公路货运市场运价指数Ningbo Highway Freight Index(简称“NHFI”)以
随着生物质炼制概念的提出,木质纤维原料的综合利用引起了广泛关注。木质素是木质纤维原料的重要组成部分,也是自然界芳环资源的最大来源。然而,其复杂的化学结构和较低的反
在银行业快速发展的背景下,抵债资产的管理逐渐成为银行发展需要解决的现实问题。本文结合秦皇岛银行抵债资产管理的实际情况,对困扰银行发展的抵债资产管理问题展开分析,并提出具有针对性的解决措施,为银行开展抵债资产管理工作提供指导。本文采用文献资料法、实地调查法等方法,结合抵债资产概念、范围、资产与不良资产的关系等理论,对秦皇岛银行抵债资产接收条件、状况和问题展开分析,银行目前抵债资产90%均为房产、车辆
工程数字化是近年来隧道及地下工程的新兴课题之一,地下工程的数字化将使隐蔽的工程透明化,复杂繁多的数据高度信息化共享,易于准确分析和掌握.本文结合上海长江隧道工程实际
采用动态光散射仪对纳米氧化铈的粒度做了测定条件研究,首先考察了超声时间对粒度测定结果的影响。以此为基础,考察了分散介质、分散剂及其用量、纳米氧化铈固含量等因素对粒