基于概率图模型的数据密集型广告点击率预测系统设计与实现

来源 :云南大学 | 被引量 : 0次 | 上传用户:lifazhan197809
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
随着Web2.0、互联网和电子商务的迅猛发展与广泛应用,互联网广告成为了互联网公司最主要的收入模式。广告点击率是评价广告投放成功与否的一个重要标准,成功的广告投放能显著提升互联网公司的收益。而且,对广告的点击率进行准确的预测有利于提升用户的体验。在线用户之间都存在着浏览和搜索等行为上的相似性,这种相似性本身具有不确定性。然而,贝叶斯网作为一种重要的概率图模型,是进行不确定知识表示和推理的重要工具。因此,针对没有浏览或点击历史记录的用户对潜在广告的点击率预测问题,我们利用贝叶斯网的不确定表示和推理方法对用户之间存在的依赖关系进行建模计算,最终预测目标用户对广告的点击率。本文利用Hadoop平台和MapReduce编程模型,以贝叶斯网作为支撑理论,从海量的用户浏览和搜索广告的历史数据出发,设计并实现了数据密集型的广告点击率预测分布式并行算法,包括数据预处理、贝叶斯网构建和基于贝叶斯网推理的广告点击率预测算法,具体如下:●基于MapReduce的海量的用户广告搜索历史日志处理。我们将海量的用户搜索广告历史数据存入分布式文件系统HDFS中,设计MapReduce算法读取海量的用户搜索广告历史数据,提取搜索关键词作为用户特征,存入分布式数据库HBase中,为后续的贝叶斯网有向无环图结构的构建做好了准备。●基于MapReduce的贝叶斯网构建。通过并行读取、处理HBase中的数据,高效地构建了贝叶斯网的有向无环图结构,再利用MapReduce分布式框架并行处理HBase中的数据,计算贝叶斯网中各个节点的条件概率表,均存入HBase。■基于MapReduce贝叶斯网推理的广告点击率预测。利用分布式框架快速、高效地计算出相似用户集合,并利用用户间的相似性进行广告点击率的预测。本文以上述三方面的研究工作为核心,实现了基于Hadoop平台的数据密集型广告点击率预测系统,可以使搜索引擎简单地通过调用系统的接口函数得到目标用户对广告点击率的预测结果。
其他文献
一、教学目标旨在培养学生的职业能力    高等职业技术教育培养的是熟练掌握某一特定职业(岗位群)技术、具有良好职业素质的高级应用型技术人才和管理人才。培养目标更强调贴近企业,贴近经济发展的需要,努力面向基层,面向生产第一线,既有一定专业理论,又具有较强专业技能的企业需要的一线技能型人才。这一培养目标也决定了高职院校的教学目标应定位于职业技能的培养,一切教学活动都围绕职业技能培养而进行。以学生的职业
本文在排列互比法的数据处理方法、误差分析计算和验证方法等 3个方面 ,结合《排列互比法在计量建标中的应用》一文中存在的问题进行了分析讨论。 This article analyzes an
目的:探讨用VSD(负压封闭引流技术)治疗骨科创伤后感染的临床效果。方法:对2014年4月1日~2015年4月1日期间我院骨科收治的86例创伤后感染患者的临床资料进行回顾性研究。我们
目的:探讨分析影响新生儿听力筛查通过率的相关因素。方法:选取县妇幼保健院2012年1月1日至2012年12月31日出生的2567例新生儿作为研究对象,收集其相关资料并对其进行听力筛
综合国际化问题上看似矛盾的两种视角,以美国为例,力图呈现川菜国际化相对完整的图景。回顾了川菜在美国的传播和接受史,将其分为四个阶段,对每个阶段的重要事件和特点加以总
公安高等教育是我国高等教育的重要组成部分,同时作为公安队伍建设的重要内容,其肩负着为公安工作提供坚实可靠的人才培育与技术支持的重任。近年来,随着公安教育体制改革和