论文部分内容阅读
电子商务平台中经常存在着供求差距,所谓供求差距是指商家(供给方)现有的商品不满足买家(需求方)的需求。在电子商务中,买家的购物需求往往蕴含在买家的购物行为中,例如以关键词搜索商品,在商品网页中点击价格、类别、运送时间要素等。如何从买家购物行为中分析出买家的需求,并提供给卖家作为供给的参考,从而解决买卖双方的供求差距,是电子商务需要解决的重要问题。针对上述问题,本文以国际著名的某电子商务公司(简称E公司)的实际项目为背景,针对如何分析在TB级用户行为数据的基础上得到热卖与非热卖的商品列表的实际需求,在对基于Hive的数据存储技术、基于规则的数据清洗技术、基于Map Reduce的供求关系分析建模技术等相关技术进行分析研究的基础上,设计并实现了一个基于大数据的电子商务供求分析系统,并通过在E公司的电子商务平台中对3TB实际数据的系统测试以及三个月的实际上线运行,对该系统的可行性和有效性进行了验证。本文的工作内容有以下几个方面:(1)针对电子商务平台大规模用户行为数据的提取与清理问题,对数据进行了ETL(Extract,transformation and load),提出了基于规则的数据清理以及基于HADOOP Hive数据仓库对数据进行存储和处理的方案,将数据整合为适合进行数据分析的形式,解决大规模数据量下对数据进行存储与处理的效率问题。(2)使用大规模行为数据对买家用户需求进行提取与归并。在T级别的数据量下,对用户搜索关键词和用户搜索行为进行处理,根据不同搜索行为下的用户需求进行归并,提取需求信息并对应到相应商品上。基于Hive设计并实现了针对此问题的UDF(User define function),对用户的搜索关键词进行处理,对用户的搜索行为进行分析,提取用户需求,完成对大规模用户行为数据的分析与处理。(3)根据用户需求与电子商务平台的整体供给,对供需关系进行建模。根据不同的业务需求,对不同的业务指标建立模型,在Hadoop Map Reduce下设计并实现,提供潜在热销产品的目录清单,满足了大规模数据量下回归分析的效率要求。