面向互联网用户的个性化广告推送服务研究——基于Hadoop

来源 :东华大学 | 被引量 : 0次 | 上传用户:hmglz
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
近年来,随着宽带互联网的迅速发展以及网民数量不断攀升,互联网上的广告推送服务迎来了新的商机,已经得到了众多的门户网站、购物网站以及社交网站等的关注。在互联网广告推送服务中,网站将其广告位以有偿使用的方式提供给广告主投放广告。广告主在使用广告推送服务时,一方面希望提高产品广告的推送效果,即将广告及时准确地推送给对此类产品感兴趣的目标客户;另一方面,还希望扩大广告推送的范围,即将广告推送给更多的目标客户。为此,就出现了一种由数据管理平台(DMP)和需求方平台(DSP)组成的新的广告推送运营模式。在这种运营模式中,数据管理平台主要负责收集到各方的用户数据,并对收集到的用户数据进行分析,最终得到用户的兴趣特征;DSP则将DMP中用户特征数据作为数据输入,广告主自定义其竞价规则,最终由DSP平台运营商将广告推送给用户。  互联网宽带提供商(ISP)作为提供互联网的服务商,相对于单个电子门户网站,其覆盖的用户数量要大得多,其用户群体分布非常广泛。一个用户在使用ISP提供的互联网访问服务时,在ISP的日志中留下了该用户访问所有网站的记录。这些日志数据蕴含着更为全面的用户兴趣特征。可见,经由ISP的日志中分析出的用户兴趣特征数据在互联网广告推送服务应用中具有得天独厚的优势,其成为DMP的重要数据来源。  为此,本课题以某运营商的用户宽带访问记录为基础数据,在数据管理平台中对基础数据进行分析得到用户的兴趣特征库,在此基础上利用信息推送技术、个性化广告推送技术等,设计并实现了一种基于MapReduce并行框架的个性化广告推送服务系统。  首先,本文对面向互联网用户的个性化广告推送服务进行了需求描述,并设计了个性化广告推送服务系统的总体架构。对个性化广告推送服务的数据输入的数据管理平台也进行了深入的阐述,主要针对其中识别有效的cookie项聚合session,最终达到识别日志文件中的独立用户。  然后,本文考虑MapReduce在大数据处理上所具有的优势,试图将MapReduce与传统的实时竞价方法相结合,提出了一种分布式的实时竞价算法,并将之运用于个性化广告推送服务中。本文以Hadoop集群框架为基础,设计了分布式MR-RTB算法实现高效的广告主的实时竞价算法,并将其运用到广告推送服务中。MR-RTB算法中的核心在设计了高效的数据分区策略和连接查询处理算法,本课题中利用Hash函数设计的数据分区策略可以避免节点的频繁加入和退出,极大限度的减少平均响应时间。  最后,本课题中采用合适的Hadoop开源平台和Eclipse开发环境对广告推送服务进行编码测试。在真实的测试证明广告推送服务能够很好的结合广告主、用户、广告运营商三方的需求进行广告推送。最终达到满足用户的个性化需求;广告主提高其广告点击率,扩大其用户群;有效提高广告运营商的宽带业务收入。
其他文献
万有引力搜索算法(Gravitational Search Algorithm, GSA)是由伊朗克曼大学的Esmat Rashedi等人于2009年所提出的一种新的启发式优化算法,其源于对物理学中的万有引力进行模
无线传感器网络(Wireless Sensor Network, WSN)技术作为21世纪具有巨大影响力的技术之一,已经成为当今世界前沿科技的研究热点,ZigBee作为设计WSN的主流协议,也同样备受关注
随着智能手机的不断普及与手机上网用户的持续增多,个人手机安全问题越来越多的得到了关注。Android平台作为近几年来新兴的手机操作系统,市场占有率达到智能手机的一半以上
运动目标的跟踪与识别作为计算机视觉的一个核心研究课题,相关算法如雨后春笋般出现。跟踪的目标及场景的差异,导致跟踪算法的选择也不尽相同的,这就需要在算法设计阶段能够
图像分类在计算机视觉研究领域中是一个热点问题,一直以来备受学者关注,尤其是近些年来,数字图像的规模呈现爆炸式增长态势,图像分类已成为许多领域的一项关键任务,因此其研
WLAN已经成为国内三大运营商的建网重点,运营商对WLAN网络的建设已经从初期的建设期发展为建设与运营并行考虑的时期,既要考虑如何在扩建、提速下有效维护、优化WLAN网络,实
离群点是指数据集中和常规数据对象的产生机制完全不同的,不符合数据的一般规律,偏离常规数据对象的数据点,但是它们又可能包含着我们容易忽略的非常重要的信息。如在信用卡
目前,很多监控应用会在固定位置设置一些捕获设备对运动实体进行追踪,从而产生大量时空轨迹数据。例如在交通管控系统中,安装在道路上的智能摄像头会自动拍摄并对过往车辆进行识
“大数据”已成为近年计算机信息技术行业关注的热点。如何利用现有技术挖掘出数据背后隐藏的丰富信息,进而创造更高的经济价值,是大数据发展的问题之一。可视化挖掘技术以图形
脑-机接口(Brain-computer interface, BCI)是一种不依赖外周神经和肌肉等传统信息通道的特殊人-机交互技术。利用该技术,可实现大脑与外部设备之间的直接通信和控制。作为神