论文部分内容阅读
商户为吸引客户消费出台的各种优惠,信息出处甚多,分散于互联网各处,用户到达度偏低。通过对信息的采集与处理,可实现商户各类优惠信息汇聚。数据仓库是这个信息处理过程中的最重要的环节。本文主要是针对优惠信息汇聚的数据仓库的研发和数据展现。互联网信息的采集汇聚过程中,出现各种数据不确定的情况,需要使用ETL系统实现各种不同数据源的信息匹配,最终向用户提供基于POI的统一数据,符合移动互联网使用习惯,还可通过大数据分析为商户提供决策信息。数据仓库的研发主要包括总体设计及维度建模,重点介绍了数据仓库的源数据和ETL部分,包括优惠数据的采集、抽取、关联匹配、清洗、转换和加载过程,数据采集部分主要是解决防抓取、cookie限制、IP访问次数限制等采集难点;数据抽取部分主要是各类优惠信息的定时抽取及基于时间戳方式的增量抽取;关联匹配部分主要是以商户名称及地址为主、电话号码与经纬度为辅的POI信息匹配,其中采用的算法有基于字典和统计的中文分词技术、相似度检测、地址缩略词及错别字的识别算法等;数据清洗部分主要是利用各类优惠源和核心商户的关联匹配结果进行优惠信息中的缺失、错误、重复数据清洗;转换加载部分主要是按照数据仓库目标表的格式标准化及装载到数据仓库的过程。在本文的最后对该方案的可行性进行了验证,并介绍了报表的生成。