基于Spark的数据管理平台的设计与实现

被引量 : 0次 | 上传用户:zhangshihua11
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
随着Android操作系统的快速发展,以Android智能手机为阵营的手机APP呈现出爆发式的增长,用户的娱乐时间也从PC端转移到了移动端。用户每天运行APP产生大量的日志文件数据成为挖掘用户兴趣爱好的重要数据来源,通过用户的兴趣爱好来准确把握用户群体,圈定高质量的用户群体,定向投放广告与内容分发,可以提高营销效益。本文首先介绍了相关的背景,然后深入介绍数据处理领域的相关技术,包括分布式计算框架Spark、分布式文件系统HDFS等,同时介绍了用户画像系统和推荐系统的相关算法。最后,基于Spark构建了大数据管理平台DMP,使用Spark生态圈的数据处理技术构建高可用的数据管理平台,在此基础之上进行APP的推荐,取得了良好的效果。本论文的主要研究成果包括:(1)针对企业内部运营部门的实际需求,并结合当前大数据领域的相关技术,设计了基于Spark集群的数据管理平台总体架构,以满足运营部门APP内容分发的需求。(2)设计数据仓库,使用Spark编程模型实现数据仓库ETL自动化操作。(3)设计用户画像系统,给每一个用户都打上详细的属性维度标签和兴趣维度标签,并且使用NoSQL数据库存储标签,构建完整的可扩展的用户画像系统。(4)设计推荐系统的引擎。针对用户的历史数据,设计使用推荐系统的相关算法。
其他文献
本文以电子天平为研究对象,分析了电子天平示值结果不确定度的来源并结合实际应用的情况,详细介绍了电子天平示值误差测量结果的不确定度评定方法。
李宗仁在《回忆录》中多处提及夏文运,称他是“无名英雄”,“对抗战之功实不可没”。1965年7月,李宗仁冲破重重阻力,返回祖国大陆。他曾向有关部门打听夏文运子女的情况,并希
为了获得车辆稳定行驶的临界车速,对铰接式车辆沿直线或大曲率半径曲线行驶时的稳定性进行了研究。将铰接式车辆简化为前、后两车节组成的系统,考虑了轮胎侧偏特性和液压转向
国际河流利用的有限主权原则是主要的国际河流习惯法,含义为一国在利用其境内国际河流时要承担相应的义务。我国已经恪守国际河流法和一般的国际河流利用原则。《国际水道非
现有机械采油实验装置的供水及计量系统,存在两大主要问题。一是实验过程需要持续供水,并且水不能循环使用,抽油机抽出的水进入分离器测量后全部直接排入下水道,对于水资源是一种
摘要为了筛选出制备富含GABA桑叶食品的桑树(MorusalbaL.)品种,提高桑叶产品的口感品位,研究从GABA桑树品种资源库中筛选出含量高的18个品种,调查了影响桑嫩叶产量的指标发芽
目的探讨优化性健康行为干预对2型糖尿病合并非酒精性脂肪肝(NAFLD)患者胰岛素抵抗指数(HOMA-IR)和脂肪肝指数(FLI)等的影响。方法选取2016年1-12月漯河市某医院诊治的98例2
目前我国水产养殖场大多数为池塘养殖,蚁害破坏堤坝、电缆、攻击人畜现象较为普遍,正舒杀蚁饵剂和红蚁净是2种池塘蚁害防治常用的灭蚁药。红蚁净(pyragne)有效成分为吡唑类化合物
目的提高精神科护士对精神活性物质所致精神障碍住院患者外走危险的防范能力,最大限度地降低或避免患者外走行为的发生。方法采用自制的"精神疾病患者外走危险因素评估与处理
为了获得飞行器高精度、高稳定性的定位结果,结合低成本的单目摄像机和惯性测量单元,通过对单目视觉和惯性测量进行多传感器融合,实现飞行器的自定位。视觉定位模块中,对3种