论文部分内容阅读
近年来,随着宽带互联网的迅速发展以及网民数量不断攀升,互联网上的广告推送服务迎来了新的商机,已经得到了众多的门户网站、购物网站以及社交网站等的关注。在互联网广告推送服务中,网站将其广告位以有偿使用的方式提供给广告主投放广告。广告主在使用广告推送服务时,一方面希望提高产品广告的推送效果,即将广告及时准确地推送给对此类产品感兴趣的目标客户;另一方面,还希望扩大广告推送的范围,即将广告推送给更多的目标客户。为此,就出现了一种由数据管理平台(DMP)和需求方平台(DSP)组成的新的广告推送运营模式。在这种运营模式中,数据管理平台主要负责收集到各方的用户数据,并对收集到的用户数据进行分析,最终得到用户的兴趣特征;DSP则将DMP中用户特征数据作为数据输入,广告主自定义其竞价规则,最终由DSP平台运营商将广告推送给用户。 互联网宽带提供商(ISP)作为提供互联网的服务商,相对于单个电子门户网站,其覆盖的用户数量要大得多,其用户群体分布非常广泛。一个用户在使用ISP提供的互联网访问服务时,在ISP的日志中留下了该用户访问所有网站的记录。这些日志数据蕴含着更为全面的用户兴趣特征。可见,经由ISP的日志中分析出的用户兴趣特征数据在互联网广告推送服务应用中具有得天独厚的优势,其成为DMP的重要数据来源。 为此,本课题以某运营商的用户宽带访问记录为基础数据,在数据管理平台中对基础数据进行分析得到用户的兴趣特征库,在此基础上利用信息推送技术、个性化广告推送技术等,设计并实现了一种基于MapReduce并行框架的个性化广告推送服务系统。 首先,本文对面向互联网用户的个性化广告推送服务进行了需求描述,并设计了个性化广告推送服务系统的总体架构。对个性化广告推送服务的数据输入的数据管理平台也进行了深入的阐述,主要针对其中识别有效的cookie项聚合session,最终达到识别日志文件中的独立用户。 然后,本文考虑MapReduce在大数据处理上所具有的优势,试图将MapReduce与传统的实时竞价方法相结合,提出了一种分布式的实时竞价算法,并将之运用于个性化广告推送服务中。本文以Hadoop集群框架为基础,设计了分布式MR-RTB算法实现高效的广告主的实时竞价算法,并将其运用到广告推送服务中。MR-RTB算法中的核心在设计了高效的数据分区策略和连接查询处理算法,本课题中利用Hash函数设计的数据分区策略可以避免节点的频繁加入和退出,极大限度的减少平均响应时间。 最后,本课题中采用合适的Hadoop开源平台和Eclipse开发环境对广告推送服务进行编码测试。在真实的测试证明广告推送服务能够很好的结合广告主、用户、广告运营商三方的需求进行广告推送。最终达到满足用户的个性化需求;广告主提高其广告点击率,扩大其用户群;有效提高广告运营商的宽带业务收入。