数据仓库技术在实现优惠信息汇聚中的应用

来源 :中国矿业大学 | 被引量 : 0次 | 上传用户:xie_e
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
商户为吸引客户消费出台的各种优惠,信息出处甚多,分散于互联网各处,用户到达度偏低。通过对信息的采集与处理,可实现商户各类优惠信息汇聚。数据仓库是这个信息处理过程中的最重要的环节。本文主要是针对优惠信息汇聚的数据仓库的研发和数据展现。互联网信息的采集汇聚过程中,出现各种数据不确定的情况,需要使用ETL系统实现各种不同数据源的信息匹配,最终向用户提供基于POI的统一数据,符合移动互联网使用习惯,还可通过大数据分析为商户提供决策信息。数据仓库的研发主要包括总体设计及维度建模,重点介绍了数据仓库的源数据和ETL部分,包括优惠数据的采集、抽取、关联匹配、清洗、转换和加载过程,数据采集部分主要是解决防抓取、cookie限制、IP访问次数限制等采集难点;数据抽取部分主要是各类优惠信息的定时抽取及基于时间戳方式的增量抽取;关联匹配部分主要是以商户名称及地址为主、电话号码与经纬度为辅的POI信息匹配,其中采用的算法有基于字典和统计的中文分词技术、相似度检测、地址缩略词及错别字的识别算法等;数据清洗部分主要是利用各类优惠源和核心商户的关联匹配结果进行优惠信息中的缺失、错误、重复数据清洗;转换加载部分主要是按照数据仓库目标表的格式标准化及装载到数据仓库的过程。在本文的最后对该方案的可行性进行了验证,并介绍了报表的生成。
其他文献
期刊
综合孔径辐射计全天时、准全天候的特点,使得它可以作为一种新的制导方式弥补传统末制导存在的不足。在将综合孔径辐射计应用于末制导系统过程中,环境及典型目标辐射特性以及目
随着蜂窝通信技术的发展,基于蜂窝网络的移动端定位技术正成为人们研究和应用的热点。同时,由于政府的强制性要求和市场需求的双重推动,其在复杂的无线电波传输环境下高精度
随着人工智能技术的蓬勃发展,以ADAS和无人驾驶技术为核心的智能汽车成为未来汽车的发展方向,作为其关键技术之一的目标检测与跟踪,一直是该领域的研究热点。车辆的目标检测
本论文研究并设计了一个可用于信息安全系统数据加解密的芯片。该芯片采用高级数据加密标准(AES)的分组密码算法。文中首先阐述了AES算法的数学知识;接着详细描述了算法流程,包
OFDM中继通信系统以其高的信道容量以及广阔的信号覆盖范围而成为移动通信领域研究的热点。论文研究了OFDM中继通信系统中基于信道容量最大化的资源优化问题。主要内容包括:介
JPEG2000是新一代静止图像压缩标准,它具有现代图像压缩所要求的新性能如良好的低比特率压缩性能、支持图像质量和分辨率渐进传输、支持感兴趣区域编码等,可应用于数码相机、
现代雷达系统广泛采用脉冲压缩技术,在确保雷达速度分辨力的前提下,采用大时带积脉冲压缩信号来提高雷达的距离分辨力。本文主要研究雷达多波形频域数字脉冲压缩系统,分析了
随着我国信息化前进的步伐以及互联网技术的迅速发展,电子政务的建设已经迫在眉睫地提到工作日程上。本文正是根据我国电子政务建设的现状和发展趋势,提出一种基于Web Service
随着网络技术和多媒体技术的飞速发展,多媒体数据逐渐成为人们获取信息的重要来源,因此,如何保护多媒体信息的安全成为国际上研究的热门课题。本文对信息隐藏领域的一个重要