基于Hadoop的海量广告日志分析系统的设计与实现

被引量 : 0次 | 上传用户:rocxdp
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
百度凤巢是百度推出的全新广告拍卖系统,其以每天数以亿计的网页搜索量为强大后盾,为推广商户带来巨大经济效益的同时也为百度带来了巨大的经济收入,截至2010年第三季度末,来自凤巢的营收已占百度总营收的20%以上。然而从线上运行以及用户反馈情况来看,凤巢在广告质量度计算、展现以及广告优化等功能方面仍存在较多问题,这些问题不仅会给用户带来经济损失还会为凤巢造成负面影响。为此,本论文针对凤巢的重要业务点,设计并实现了基于Hadoop的海量广告日志分析系统,旨在从海量的广告日志中分析挖掘出异常数据,并从不同维度对异常数据进行统计以及可视化展示,以帮助凤巢有效发现潜在的问题,对异常产生的内因进行深入分析研究,找出问题来源以提出有效的解决方案。首先,本文基于凤巢的业务功能确定了日志分析系统的实际需求;然后针对该需求,设计了本海量日志分析系统的功能结构,分为日志解析模块、日志分析挖掘模块以及Web展示模块。日志解析模块完成原始日志的数据预处理操作。日志分析挖掘模块作为系统的核心部分,为不同的业务监控项建立计算规则模型,从经过预处理的海量日志数据中分析挖掘出各个业务点的异常数据,然后对异常数据进行多维度的过滤统计,该模块主要包括广告质量度、广告审核以及广告优化建议三个业务专题。Web展现模块通过动态趋势图以及表格等形式在网页上对分析统计结果进行可视化展现。在系统的实现技术上,日志解析和日志分析挖掘模块充分利用了Hadoop在处理海量数据方面的优势,将海量的原始日志及分析结果存储于HDFS(HadoopDistributed File System)中,基于Hadoop的MapReduce算法建立不同的MapReduce计算程序集来实现数据的处理。 Web展现模块使用LAMP(Linux+Apache+MySQL+PHP)技术,采用较流行的Web应用程序开源框架CakePHP实现。最后,系统从功能和非功能上进行了测试并得到验证。从商用效果来看,通过本系统及时发现了潜在问题,有效减少了凤巢的线上错误率,为决策发展提供了有效依据。
其他文献
通过对非饱和原状黄土冻融循环后强度变化规律进行分析,可以为黄土地区冻融病害机理研究提供参考。因此,本文以非饱和原状黄土冻融循环后强度变化规律为研究对象,利用直剪试
改革开放推进社会主义市场经济体制的发展和国民经济的持续高速发展。我国在加入WTO后,与国外商务往来更为频繁,导致逃避税问题的增加。国内外形势的变化与发展,给我国税收征
国土资源部 (原地质矿产部 )“深部地球物理探测数据共享与对比研究”项目组在 1998~ 2 0 0 0年期间取得如下主要进展 :①调研了数据分布和保存状态 ,抢救、收集分散的数据 (
腐败现象是当前我国社会发展与经济建设中一个不容忽视的社会问题。银行作为经营货币的金融企业.建立符合我国国情的人性化、规范化、制度化的防治腐败机制,把反腐倡廉作为的一
针对JX1030半轴套管体的结构特点,在分析国内外近年来采用的各种成形工艺的基础上,开发了在常规设备条件下,以圆棒材为坯料,用镦粗-反挤压和扩径-正挤压两道复合工序相结合的热挤
以赤峰中心城区综合管廊工程基坑的土钉支护的冻融循环现象为研究背景,进行了粉质黏土的冻融循环和剪切破坏试验,研究了粉质黏土在不同冻融循环条件下的剪切应力和摩擦角与冻
结合2套42000Nm3/h空分装置冷箱内配管安装过程控制的经验,总结了空分冷箱内配管在管道预制、安装、清洗脱脂、焊接安装等过程控制要点和注意事项。
创新是经济增长的重要来源,产业创新是创新研究的一部分,产业创新是涵盖技术产品市场组织等创新内容和复杂影响因素共同作用下的系统过程如何更好地实现产业创新,涉及到产业创新
随着中国国际影响力的不断提高,世界旅游市场的逐渐发展,越来越多的外国游客被中国悠久的历史文化吸引来华旅游,旅游外宣文本翻译作为不同背景下人与人之间思想文化交流的桥梁以
由于借贷双方对抵押资产价值的认识存在明显分歧,因而所选用的资产评估方法也各不相同,为了协调二者,本文提出到期价值估算法和即期价值修正法两种评估方法,以提高评估结果的