论文部分内容阅读
随着Web2.0、互联网和电子商务的迅猛发展与广泛应用,互联网广告成为了互联网公司最主要的收入模式。广告点击率是评价广告投放成功与否的一个重要标准,成功的广告投放能显著提升互联网公司的收益。而且,对广告的点击率进行准确的预测有利于提升用户的体验。在线用户之间都存在着浏览和搜索等行为上的相似性,这种相似性本身具有不确定性。然而,贝叶斯网作为一种重要的概率图模型,是进行不确定知识表示和推理的重要工具。因此,针对没有浏览或点击历史记录的用户对潜在广告的点击率预测问题,我们利用贝叶斯网的不确定表示和推理方法对用户之间存在的依赖关系进行建模计算,最终预测目标用户对广告的点击率。本文利用Hadoop平台和MapReduce编程模型,以贝叶斯网作为支撑理论,从海量的用户浏览和搜索广告的历史数据出发,设计并实现了数据密集型的广告点击率预测分布式并行算法,包括数据预处理、贝叶斯网构建和基于贝叶斯网推理的广告点击率预测算法,具体如下:●基于MapReduce的海量的用户广告搜索历史日志处理。我们将海量的用户搜索广告历史数据存入分布式文件系统HDFS中,设计MapReduce算法读取海量的用户搜索广告历史数据,提取搜索关键词作为用户特征,存入分布式数据库HBase中,为后续的贝叶斯网有向无环图结构的构建做好了准备。●基于MapReduce的贝叶斯网构建。通过并行读取、处理HBase中的数据,高效地构建了贝叶斯网的有向无环图结构,再利用MapReduce分布式框架并行处理HBase中的数据,计算贝叶斯网中各个节点的条件概率表,均存入HBase。■基于MapReduce贝叶斯网推理的广告点击率预测。利用分布式框架快速、高效地计算出相似用户集合,并利用用户间的相似性进行广告点击率的预测。本文以上述三方面的研究工作为核心,实现了基于Hadoop平台的数据密集型广告点击率预测系统,可以使搜索引擎简单地通过调用系统的接口函数得到目标用户对广告点击率的预测结果。