基于Hadoop的大型网站海量数据的统计与应用

被引量 : 0次 | 上传用户:tanjuan1980
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
随着互联网的飞速发展,人们对于网络的需求越来越广。然而,用户对互联网的需求却各不相同,往往体现出一定的偏好性。对于一个网站来讲,用户的一些行为在网站的后台留下了日志数据,并且这些数据是海量的。对这些海量数据进行处理与统计是分析用户行为特征、获取用户属性、检测广告投放效果最好的办法。对于海量数据的处理,已经有了许多的研究,一些开源的软件框架不断地被开发出来。最流行的就是Hadoop分布式软件框架,它可以高效地处理海量数据。其中,Hadoop内置的Hive数据仓库框架同样可以高效地处理海量数据。目前,Hadoop得到了工程研发界的普遍关注。某大型网站的用户行为分析项目就是为了分析用户行为特征而产生的。将通过这些海量数据的处理,进而挖掘用户的行为特征、用户属性和广告投放属性。在该项目中,利用Hadoop和Hive来处理这些海量数据。该项目主要分为以下几个部分:用户人群分类、总体数据统计、广告数据统计、cookie重合度统计、品牌探针和全网路统计。得到这些部分的统计结果后,进入数据分析阶段,挖掘相关信息,帮助制定运营策略。本文详细介绍了这几个部分的设计与实现过程,并针对有的部分给出了简要的分析。首先介绍了项目背景和Hadoop的相关技术,然后详细介绍了项目目标和数据的一些细节。接着详细介绍了每个部分的作用以及如何使用Hadoop来帮助完成海量数据的处理。最后,对本文进行了简单的总结,指出不足之处和可以进行优化的地方。
其他文献
针对传统蒸压加气混凝土砌块砌体施工速度缓慢、机械工业化程度低、工人操作技术水平及人力成本要求较高、砌体强度离散性较大等问题,本文研发了一种芯柱式无浆加气混凝土精
甘肃省电器科学研究院(简称甘肃电科院)是高低压电器产品检验检测和研究专业机构。由于检验检测行业所需的专业技术人员无法通过普通高校获得,因此需要检验检测机构长期的培
随着中国与其他国家的交流日益繁盛,培养具备跨文化交际能力的人才已成为教育的重中之重。中外合作办学作为一种新型的教育模式,能够帮助引进国外先进的教育理论体系与教育资
目的:对重庆及邻近地区太田痣患者进行回顾性临床分析.方法:总结952例太田痣患者的临床资料,并在性别、发病时间、临床分型、皮损颜色等方面进行统计学比较.结果:太田痣患者
随着全球经济化的进程的加快,企业要在激烈的市场竞争中求生存,谋发展,就必须自觉地从实际出发,对企业的未来做出总体运筹和谋划、制定实施企业的发展战略。这个看似空洞的理
基金业在我国发展时间较短,但发展十分迅猛。股票市场的波动性反映了股市的动态风险的大小,不仅影响到投资者的收益,而且市场稳定也是证券市场健康发展的前提。基金主要投资
<正>在经济发展的今天,博物馆信息化使馆藏文物资料,以特有的展览语言,生动直观的形式和快捷的方式丰富着其社会效益,尤其是在构建和谐社会中起到了巨大作用。博物馆兴建网站
会议
信息是事务特征的整体描述,它既可用于解释事务当前行为,也可用于预测事务发展趋势。在信息社会,信息已经成为人们制定决策的重要参考因素。计算机的出现使得大容量的数据存
目的:探究明目羊肝丸联合自体血清治疗白内障超声乳化术后干眼症患者的临床效果。方法:选取白内障超声乳化术后发生干眼症的84例患者(84眼)为研究对象,按照随机数表法将患者平均
[目的]本研究以《大医精诚》中蕴含的医学伦理思想为内涵来充实护理伦理学基本框架,并以此为基础构建符合我国文化背景和基本国情的护理专业价值观量表结构,进而编制符合中国