论文部分内容阅读
随着互联网的快速发展,数据化已经成为电商行业所必需的资源。而对于数据的捕获与处理已经不能通过常规手段进行了。在大数据的时代,电商行业也正面临着更好的机会。其中,对用户数据的采集以及商品的个性化的推荐,成为了各大电商的重中之重。例如,电商行业的阿里巴巴、京东,都是利用个性化的推荐来做有价值的营销。那么,在个性化推荐系统中,用户画像的提取,是系统实现的关键所在。随着用户数据的增多,挖取的数据模型也逐渐呈现多样化的态势,从而为用户画像的提取提供了更加广阔的空间。本文利用某电器商城的数据提出一种利用规则匹配型、统计型和数据挖掘型等多维度标签,来形成用户画像。本文研究的重点如下:1.为本系统选择适合的大数据的相关框架及组件,形成整体的框架结构,并搭建系统的执行环境,为接下来各个模块的功能实现打好基础。2.将经过处理的数据源导入到Hive中,构建宽表,再采用BulkLoad技术将数据导入HBase中。3.用Spark来计算数据,从而建立标签模型。其中挖掘类标签将采用机器学习算法来实现。本文通过使用Scala语言编写框架,实现函数式编程,使用Spark进行统一的计算处理分析引擎,使用HBase存储用户的数据标签,最终实现给用户打标签标识。