基于WIFI探针的商业大数据分析技术的研究

来源 :电脑迷·中旬刊 | 被引量 : 0次 | 上传用户:loyovue0603
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
  摘要:为了解决某些商场经营不善或者地点选择困难,根据目前WIFI的大量使用,采用WIFI探针技术采集大量数据,对数据进行加工处理,根据对处理后数据的分析来探测商场、商店周围的客流以及客流的入店率和通过探针返回的数据分析顾客行为,以此来推测经营的最佳时间和地点。
  关键词:WIFI探针;海量数据;客流分析;数据分析
  1 引言
  近几年,大数据成为新兴的热点问题,在科技、商业领域得到了日益广泛的关注和研究,并有一些相关的研究成果。此后,大数据的影响逐渐深远,遍及医疗保健、社会安全、环境科学、交通管理、金融业、零售业、制造业、农业、以及工商业[1]。
  大数据时代,WIFI探针技术引起了日益广泛的关注[2],探针作为重要的探测工具,是商业人士探测人流行为的重要工具,承担着手机定位,数据收集的功能,对各行各业的老板选择开店地址,以及从事行业的选择都有不可替代的作用。基于WIFI探针探测大数据对改善店铺亏损,地点选择困难,产品选择困难都有着重要意义。
  WIFI探针的使用范围除了基本的饭店、商场、电影院、超市、便利店等小额消费领域,企业、社区、医院、校园等公共管理领域,逐步形成一个由点到面,由单一到多元的综合服务体系,丰富的数据来源和爆炸式的数据增长促使WIFI探针分析技术形成并得到日益广泛的关注和研究。
  2 核心技术
  利用WIFI探针进行客流大数据分析,核心技术是搜集WIFI探针数据和利用大数据平台进行分析数据。
  2.1技术路线
  基于以上总体设计及业务功能需求,对本系统进行具体设计,在具体设计中,确定所包含的各个模块和模块所涉及到的主要技术、算法。之后进入详细编码阶段,本系统采用 Java语言在Linux系统上进行开发,系统的关键技术为大数据处理。前端采集通过安装WIFI探针,获取移动终端的 MAC 地址、时间、信号强度、经纬度等。通过网络将前端采集的数据上传到大数据处理平台。 并利用算法对前端设备采集的数据进行清洗和存储,最终利用大数据分析算法,对前端采集的海量数据进行清洗和分析,得到预期结果。
  2.2WIFI探针的原理
  WIFI探针通无线信号,记录连接在该设备上的移动设备的的移动轨迹,其根据移动设备的mac地址标识移动设备的唯一性。当设备进入WIFI探针设备信号覆盖区域内且终端设备WIFI功能开启,终端设备就能被探针探测到,并且获取手持终端的MAC地址。WIFI探针在很大程序上也相当于一台路由器,它会自动探测。也就是说只要手机开启WIFI,就会被探针记录。
  2.3数据的采集
  WIFI探针在WIFI的普遍程度和长期养成的链接WIFI的习惯,使得大量的WIFI探针数据产生,以商场为例,每天收集的数据高达百万条。
  WIFI探针具有规范化的采集流程,确保数据能够快速准确的到达数据库,以便数据的提取与预处理。每天共有上千万条数据,通过把数据放入建好的数据库,对数据进行提取,取出有效时间内的有用的几列进行数据分析。
  2.4数据存储
  基于功能业务需求及规划,本系统采用 HDFS、HBase系统进行数据的统一存储。 HDFS 是 Hadoop 体系中数据存储管理的基础。本文充分利用 HDFS 分布式的优势,将 HDFS 作为主要的存储平台,对于源源不断增长的海量数据,HDFS 可进行很好的清理和扩展。面对海量数据的查询,对于系统的数据结构设计与性能优化都提出非常高的要求,传统数据库根本无法完成多条件的快速的查询。为了实现海量数据秒回查询,本系统对需要随机访问、实时读写的数据采用 HBase 数据库。
  2.5数据计算及分析
  一是時间特征分布分析,二是人群分布特性分析,三是影响因素分析,主要分析了手机信号强度、离探针距离等因素对探针探测到客流数量的影响。本文主要采用hadoop+mapreduce进行数据的清洗。
  MapReduce将复杂的、运行于大规模集群上的并行计算过程高度地抽象成了两个函数:Map和Reduce。编写MapReduce程序容易,不需要掌握分布式并行编程细节,也可以很容易把自己的程序运行在分布式系统上,完成海量数据的计算。
  (1)通过固定一个信号强度来进行区分人流量和客流量,进过反复测量和计算,我们得到了信号强度和距离的粗略算法,如下公式:
  d = 10^((abs(rssi) - A) / (10 * n))
  其中:
  d - 计算所得距离(单位:m)
  rssi - 接收信号强度
  A - 发射端和接收端相隔1米时的信号强度
  n - 环境衰减因子
  (2)另外一个主要指标是深度访客,在以上公式的基础上,我们进行了深层次的开发,若一个mac地址初始出现的持续时间超过30分钟,那么定义此用户为深度访客。
  (3)是否为老用户是最重要的一项指标,在这项功能开发的时候,主要是通过记录每天的入店顾客,将这些顾客的信息和访问时间按照日期进行存储,每次有顾客来访就会和数据库中的数据进行对比,从而判断是否为老用户。
  3 总结
  利用WIFI探针数据进行分析用户流量,针对不同人群的喜好进行分类和预测,对商业区域的商业划分和规划具有良好的指导意义,并能够根据分析结果,对未来该区域的商业价值做进一步判定。
  参考文献:
  [1]周瑛,刘越. 大数据产业发展影响因素研究[J]. 现代情报,2017.8
  [2]李引罗,彭鹏飞. 一种基于WIFI探针技术的智能考勤系统设计[J]. 数字技术与应用,2017.12
其他文献
重商主义是在亚当·斯密以前,流行于十六世纪到十八世纪中叶的经济学理论。它产生于经济学的萌芽阶段,后被古典主义经济学所代替。   斯密对重商主义进行了著名的批判,其后,对
学位
技术创新对社会经济发展的巨大推动作用已经得到广泛的认同,我国的自主创新战略也在稳步推进,然而作为国民经济主力军的我国国有企业技术创新的现状并不乐观。表面上看,是技术创
摘要:面对学生自主学习对高质量网站和网络课件的需求,文章对网页设计制中从内容选择、版面布局、多媒体及其他技术的应用等方面进行了介绍。  关键词:网页;网络课件;万维网;多媒体  中图分类号:TP391.1 文献标识码:A
选择体重、生理状况、断奶日龄基本一致的杜×荣二元杂交断奶仔猪50头,随机分成对照组和试验组,采用单因子设计,研究在断奶仔猪日粮中添加溢多酶和柠檬酸对其生产性能及粪臭