论文部分内容阅读
随着网络设施的快速进步,具有真实、观众带入度高特点的在线娱乐直播行业在近年来变得越来越火。在市场经济的影响下,在线娱乐平台也逐渐成为了一个广告发布的重要场所。广告发布要依靠主播直播时的宣传,如何给这些主播推荐合适的广告进行发布则成了主播和广告主共同关心的话题。目前,给主播打上标签,然后根据主播标签实现广告推荐是一个不错的选择。本文为了避免单机挖掘效率低下这个情况,采用了Hadoop平台以并行的方式对在线娱乐平台中的主播信息数据进行挖掘,得出了不同类型主播之间在粉丝数以及观众互动度上的具体差异性数据结论。该结论可以为主播个性化标签的生成提供科学数据参考,这样便于后续广告推荐工作的开展。本论文研究工作属于企业项目个性化标签主播的广告推荐系统的一部分,具有企业实际应用背景。本文通过对数据关联规则挖掘领域中经典的Apriori算法进行研究与改进,实现了在Hadoop平台下在线娱乐平台的主播信息数据挖掘工作。以下是本文的主要研究内容:(1)研究与分析Hadoop的架构体系,其中重点分析了它最核心的两大部分:HDFS(分布式文件系统)与MapReduce(分布式编程模型)的一些特点及原理。然后研究了爬虫技术的原理以及数据挖掘的相关知识。根据挖掘业务需求以及数据特点,本文决定采用关联规则挖掘对这些数据进行数据挖掘与分析。(2)研究并设计在线娱乐平台主播数据爬虫获取的方案。具体的说就是设计并实现分布式爬虫来获取在线娱乐平台中的主播信息数据并存储到远程数据库中,并对存储的数据进行相关预处理。(3)研究与分析Apriori算法特点与原理,针对Apriori算法存在可能产生的候选项目集很多,且验证每个候选项目集需要对整个数据库进行扫描很耗费时间的这个弊端,本文通过引入临时表,以增加临时表相关的时间和空间开销为较小代价,较大程度地减少了扫描整个数据库的次数同时也减少了产生的候选项目集,并提出了Apriori的改进算法。这种改进型的算法应用在巨大数据上面,性能提升更加明显,因此非常适合应用在对在线娱乐平台数据的挖掘工作。(4)设计和实现在线娱乐平台数据挖掘系统。该工作是在论文已经爬虫获取到在线娱乐平台主播数据的基础上,先搭建Hadoop平台,然后对已经爬虫获取到的在线娱乐平台中的主播信息数据进行数据迁移,将其迁移到Hadoop平台下的数据仓库中,最后利用改进的Apriori算法对数据仓库中的这些数据进行挖掘并得出结论。本文在研究的过程中使用到了网络爬虫、数据迁移等有关技术并通过改进后的Apriori算法高效地实现了对在线娱乐平台的数据挖掘工作,得出结论:目前游戏、娱乐以及户外类型的主播更受人们喜爱,具体的数据可为个性化主播标签的生成做科学参考。