论文部分内容阅读
随着互联网的不断发展,人们发现海量数据具有非常大的价值和无限的想象空间,从而催生了“大数据”这个概念。大数据分析相比于传统的数据仓库应用,具有数据量大,查询分析复杂等特点。许多研究机构和公司提出了许多解决方案,比如Nathan提出的Lambda架构,Kappa架构等等。对于一个刚刚在大数据方面起步并且想在数据分析方面有所作为的普通公司,如何快速有效地搭建一个分布式的大数据分析平台,并且如何能够利用其构建自己的数据分析应用,成为了这个公司的首要要解决的问题。本文的核心工作是设计、分析和搭建了一个基于DPI数据的分布式数据分析平台,并且基于这个平台,构建了两个应用:网页自动分类和群体用户画像。具体来说,本文的主要工作内容包括基于DPI数据的分布式数据分析平台的构建、基于该平台的网页自动分类应用、基于该平台的移动用户群体画像应用。本文首先介绍了该平台的架构设计、平台的功能设计、平台的各个模块的设计。架构的设计主要要从当前的实际情况出发,选择相应的技术栈。本平台的架构主要分为了三层:数据层、应用层和展现层。主要采用的技术为Hadoop、Hbase、Hive、Django等等。第二部分是实现一个基于该平台的网页自动分类应用。本文所实现的网页自动分类采用通过网络爬虫获取的url分类信息作为训练集,利用libsvm工具进行模型的训练。并且通过对SVM算法的参数调节和特征选择,对网页自动分类的准确率和效果进行了评估和对比,最终分类的精确度达到了超过百分之八十。第三部分是设计和实现了一个基于该平台的移动用户群体画像应用。移动用户群体画像的重点是标签的设计和标签的挖掘。本文根据特定的需求和现有的数据,设计了一套群体用户画像的标签,并且通过该平台对这些标签进行了挖掘,最终在平台的展现层中进行了渲染和展现。最终,本论文中所实现的平台得以在线上运行,并实际产生了良好的反馈。