基于Hadoop平台的准大学生网购手机消费行为分析

来源 :电脑知识与技术 | 被引量 : 0次 | 上传用户:jiafeicp
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
  摘要:智能手机改变了几代人的生活方式,引领着新技术潮流,准大学生市场成为手机厂家的必争之地。笔者通过Chrome浏览器开发者工具采集某电商网站上高考后三个月互联网中手机销售数据,利用Hadoop技术生态组件对数据进行清洗过滤、分析存储、可视化呈现,分析准大学生购买手机的倾向,通过品牌、颜色、屏幕尺寸三个方面分析其购买行为,预测目标群体网购趋势,引导手机厂家提升产品技术水平,从而更好促进手机市场更好发展。
  关键词:大学生;手机网购;hadoop平台;Python;数据可视化
  中图分类号:TP391 文献标识码:A
  文章编号:1009-3044(2019)35-0235-03
  伴随着我国居民收入水平的稳定增长,同时互联网 、智能化技术渗透到生活中,平台应用和虚拟货币概念已经深入人心,特别是告别高中紧张的学习生活即将踏入象牙塔的准大学生们,他们对于移动通讯设备的需求量占据当年电子产品消费市场很大比例,其中智能手机的消费需求最甚。从著名的市场调研机构组织Gartner公布的2019年第一季度全球智能手机销量就近达40亿台,各大手机制造销售厂商更是推出了不同类型、不同外观和功能的手机。那么目前手机市场上到底哪些手机品牌更受关注?哪种手机颜色更受广大消费者欢迎?是否手机屏幕尺寸越大就越受消费群体青睐?本文研究的目光投放在当代准大学生身上,通过对全国在校大学生手机使用情况开展分析调查,从而预测准大学生们的需求和使用趋势。
  1 大学生手机使用情况概括分析
  1.1全国大学生手机使用基本情况
  经调查,从全国大学生收取的8000份调查样本显示,2018年手机消费价格在1000-2000元之间的大学生占43.99%;手机消费价格在2000-3000元之间的大学生占22.34%;使用3000元以上手机的大学生占据18.76%,其中85.34%大学生购买手机的费用来源于家庭,另外有60%以上大学生更换手机周期在两年或以上,调查样本收回数据显示本科院校与高职院校大学生手机配置参数无异,并且生活费用高低与手机支付价格高低成正比[1][2]。
  1.2全国大学生对手机的使用习惯
  大学生一般会根据自身需求或喜好选择不同手机,其中待机时长、手机功能、屏幕尺寸、外观、品牌、摄像头像素、价格等考虑的主要因素;超过50%的大学生使用每日使用手机时间超过5个小时,而使用频率高峰期发生在20:00至24点之间。
  1.3大学生选择不同品牌手机的影响因素
  1.3.1手机消费心理影响因素
  大学生群体处于心理发展敏感期,容易受到外界因素影响或干扰;媒体多样化宣传手段和求异个性、攀比虚荣的消费心理极易唤起大学生的购买手机的欲望。
  1.3.2原生家庭环境因素
  大学生在校生活学习费用主要来源于家庭,而家庭经济支持与消费习惯局限着大学生购买空间,如何分配好生活必需品、学习耗品、移动设备、娱乐休闲消费比例成为其群体当下要考虑的重要问题。
  1.3.3个人购买倾向因素
  时尚靓丽外观与科技功能配置是吸引年轻群体蜂拥围观手机市场的重要原因,从众心理、品牌效应、提前消费等外来因素无不影响大学生消费倾向,如何取舍和理性消费这就需要大学生们自己去斟酌[2]。
  1.4大学生使用手机的用途和建议
  社交平台、网购、手机游戏使大学生成为网络平台消费的主力军,但是过度使用手机不但会影响视力、阻碍社交能力发展,更会影响学业,据调查数据显示已有35.12%的大学生对手机产生依赖,工作学习生活中几乎所有的业务办理都在手机应用平台上发生[3]。
  2 准大学生网购手机数据分析
  本文采用脱敏方式,使用Chrome浏览器访问目标网站,通过开发者工具收集某电商网站2018年8月手机销售数据,利用Hadoop技术生态组件对数据进行解析及关键数据提取,使用Python语言完成无关数据清洗和有效数据存储,最后运用Echarts数据可视化组件,呈现数据的可视化,分析出最受准大学生追捧的手机品牌、手机颜色和手机屏幕尺寸,预测准大学生的手机消费水平和需求趋势,有的放矢地更好调控手机消费市场。
  2.1电商网站手机销售网页数据采集
  利用爬虫工具萃取某电商网站的在线手机销售数据,但采集到的JSON数据文件中包含部分脏数据,这就需要对目标数据集进行特征参数提取,构建文本向量。数据集描述如下:
  2.1.1數据范围
  Chrome浏览器爬虫到2018年6月电商网站用户购买手机数据交易数据集合。
  2.1.2数据格式
  Phone_brand:***//手机品牌名称
  Phont_name:***//手机型号
  parameters:[//手机特征参数
  {//parameter_1
  ”namel”:”value1”,
  ”name2”:”value2”,
  ……
  }]
  {//parameter_n
  ”name1”:”valuel”,
  ”name2”:”value2”,
  ……}]
  2.1.3数据样例
  {”phone_brand”:”华为”,
  ”phone_name”:”华为P10”,
  ”parameter”:[
  {”品牌”:”华为”,
  ”型号”:”华为P10”, ”制作商名称”:”华为技术有限公司”,
  ”出厂年份”:”2018年”,
  ”出厂月份”:”6月”}   {”机身颜色”:”曜石黑”,
  ”手机类型”:”智能手机拍照手机4G手机时尚手机”,
  ”操作系统”:”华为EMUI 5.1(兼容Android 7.0)”,
  ”CPU品牌”:”麒麟960”,
  ”核心数”:”八核 微智核i6”,
  ”电池类型”:”不可拆卸式电池”,}
  {”分辨率”:”1920x1080”,
  ”触摸屏类型”:”多点触控”,
  ”屏幕尺寸”:”5.1英寸”,}
  {”运行内存RAM”:”4GB”,
  ”存储容量”:”64GB 128GB”,}
  {”键盘类型”:”虚拟触屏键盘”,
  ”款式”:”直板”}
  {”后置攝像头”:”2000万像素(黑白) 1200万像素(彩色)”,
  ”摄像头类型”:”三摄像头(后双)”,
  ”视频显示格式”:”*.3gp,*.mp4,*.wmv,*.rm,*,rmvb,*.asf”}]}
  利用python语言来构建数据采集请求功能函数,利用Re-sponse JSON数据解析,并在本地完成手机销售数据文件的创建和书写[4][5]。具体功能语句如下:
  def response_handler(self,url,data)://使用目标网页Url或接口构造Response对象
  response=requests.post(url=url,data=data, headers=self.head-ers)
  def parse(self,response)://对Response对象进行解析;形成结构化数据
  items=[]
  datas=json.loads(response.text).get(’data ’,[])
  def save_data(self,item)://将解析到的数据存储到指定目录下的Json文件中去
  data=json.dumps(item, ensure_ascii=False)
  self.fp.write(data ’,\n’)
  2.2手机销售数据清洗与过滤
  在搭建好的Hadoop集群的伪分布环境中读取采集到的HDFS数据文件,经数据解析后,进行过滤和分区,利用MapRe-duce程序完成编译、打包,发布与执行,从而完成手机销售数据的清洗。下面从数据文件中解析JSON格式数据,从数据中获取需要的字段[6]:
  String phoneBrand=GetStringByName(rawValue,"phone_brand");//提取手机品牌名称
  String phoneSize=GetPhoneSize(rawValue);//提取手机屏幕尺寸
  String buyColor=GetPhoneColor(rawValue);//提取用户购买手机颜色
  2.3手机销售数据分析与可视化
  在Linux Shell基础上完成Hive数据库和数据表的创建,利用HQL语言完成数据统计,并实现Sqoop数据推送,因手机网购数据集包含三种手机特征参数,分别是手机品牌、手机颜色、手机屏幕尺寸,故最后在Flask网页后台利用可视化前端开发工具Echarts组件调用HTTP API接口实现数据可视化渲染,从而呈现手机销售与三组参数的数据分析结果,需要特别说明的是这三个手机特征参数均排除了其他的聚类项的影响,独立获取的对应手机销售量。运行Chrome浏览器,输入URL地址后即可查看数据可视化成果[7][8]。
  利用上传工具(如SFTP)将清洗后的手机销售网页数据传至分布式服务器中,并利用Hive创建数据库和数据表,加载清洗后数据至数据表中,进而完成手机销售数据的查询分析[9]。具体功能语句如下:
  Hadoop fs—mkdir/data//Hadoopshell命令创建目录
  hadoop fs—put/home/清洗后的数据目录/data//上传数据至HDFS目录下
  Create database db_phone;//Hive创建数据库
  Create table tb_phone_data(Phone_Brand string, Phone_colorstring, Phone_size string) row format delimited fields terminated by’|’;//原始数据表
  Create table Phone_brand_count(Phone_Brand string,Phone_sale_count int);//手机品牌销量查询暂存表
  Create table Phone_color_count(phone_color string,Phone_sale_count int);//手机颜色销量查询暂存表
  Create table Phone_size_count(phone_size string,Phone_sale_count int);//手机屏幕尺寸销量查询暂存表
  Load data inpath ’/data/*’ into table phone_data;//数据加载
  Insert overwrite table Phone_brand_count selectPhone_Brand_Name,count(1) as Phone_sale_count from phone_da-to group by Phone_bBrand_Name;//手机品牌销量查询insertoverwrite table Phone_color_count select phone_color, count(1) asPhone_sale_count from phone_data group by phone_color;   //手机颜色销量查询
  insert overwrite table Phone_size_count select phone_size,count(1) as Phone_sale_count from Phone_phone_data group byphone_size;//手机屏幕尺寸销量查询
  在python创建项目的根目录下使用python manager.py run-server命令,在chrome浏览器中输入URL地址显示可视化结果,具体呈现如下面三张图所示。
  第一组:差异手机品牌对手机销售量的影响结果图。
  用二維柱状图呈现的是不同手机品牌的销售数据,X轴表示抓取电商网站中在售品牌,Y轴表示不同品牌手机的销售数量,数量是台。
  从图1中数据分布整体结构上看,国产手机品牌销售量在手机销售中占有较大优势,手机销售量排名前十的手机品牌中,国产手机品牌共有7个,认可度较高的手机在售品牌的排名次序依次为华为、小米、Apple、OPPO、VIVO、魅族、诺基亚、三星、飞利浦、锤子、努比亚。其中华为、小米的手机销量占有比较明显的优势,排行第三名的苹果手机销售量与前两名销量更是有较大差距。随着大学生爱国意识的不断增强,国产手机不管是外观设计、人体工程学理念还是核心技术支撑已经有了巨大的发展,更符合中国人的使用喜好和习惯。
  第二组:差异手机颜色对手机销售量的影响结果图。
  此二维饼图输出的是不同颜色手机销售数据分布,从电商网站获取到的手机数据量显示每种颜色手机销售比例,不同色块大小代表指定手机颜色的销售数据量。
  从图2中手机销售数据比例分析结果看,排名前三的手机颜色是黑色、蓝色和金色,其中黑色是最受消费者欢迎的颜色,更得到对象群体的青睐。
  第三组:差异手机尺寸对手机销售量的影响结果图。
  此折线图呈现的是不同屏幕尺寸手机销售数据,X轴表示的是手机屏幕尺寸,Y轴表示的是手机销售数据,数量是台。
  从图3中数据分析结果上看,5.99英寸是最受群体欢迎的手机屏幕尺寸,5.5英寸次之,5.84英寸手机销售数据排名第三,而更大尺寸的手机屏幕并没有出现在销量较高的手机范围内,因现在移动终端设备种类和用途的多样性,所以并不是手机屏幕越大越受目标群体的青睐。
  3 小结
  依据小概率事件不发生原理,本文从某电商网站中采集到的2018年8月手机销售数据经数据清洗和可视化处理后,得到的三种特征参数:手机品牌、手机颜色和手机屏幕尺寸与手机销售数据的比例分布图,可以预测出准大学生们的手机网购倾向,帮助手机制造厂商掌握市场消费动向,有针对性地开展主动营销方案,精准投放产品,提升企业服务质量。
  参考文献:
  [1]李文韬.从手机品牌选择看大学生消费观——基于对南充市某高校大学生手机品牌使用情况调查[J].山西青年,2017(9):266.
  [2]虞雀.大学生手机消费影响因素实证研究[J].江苏科技信息,2015(20):75-77.
  [3]牟潇,侯玲.大学生网购手机消费行为分析[J].文化与探索,2018(16):146-147.
  [4]赵科军,葛连升,刘洋,等.基于Hadoop和Spark构建可扩展的网络安全分析平台[J].华中科技大学学报:自然科学版,2016(S1):11-13.
  [5]Yeonhee Lee,Youngseok Lee.Toward scalable internet traffcmeasurement and analysis with Hadop[J].ACM SIGCOMMComputer Communication Review,2012(1):117—119.
  [6]Hingave H,Ingle R.An appmach for MapReduce based loganalysis using Hadoop[C].Electronics and Communication Sys—tems(ICECS),2015 2nd Intemational Conference,2015:201—204.
  [7]刘萍.基于Hadop与Spark的大数据处理平台的构建研究[J].通化师范学院学报,2018(6):59—62.
  [8]于金良,朱志祥,李聪颖.Hadoop平台的自动化部署与监控研究[J].计算机与数字工程,2016(12):34—37.
  [9]孟永伟,黄建强,曹腾飞,等.Hadoop集群部署实验的设计与实现[J].实验技术与管理,2015(1):21—23.
  【通联编辑:唐一东】
  收稿日期:2019-08-15
  基金项目:安徽省教育厅(相助省级重点项目)质量工程(2017zhkt358)
  作者简介:徐俊梅(1983-),女,安徽合肥人,讲师,硕士,主要研究方向为计算机网络技术及大数据技术;陈滨(1981-),男,安徽合肥人,学士,讲师,研究方向为软件工程。
其他文献
摘要:家庭是社会的细胞,重视家庭教育和关切家长育儿能力是构建“家校社”教育合作的关键,对培养德智体美全面发展的社会主义接班人有重要的意义。针对当前家庭教育存在的问题,引入个性化推荐算法来研究家庭教育,为孩子们打造良好的教育平台,发挥家庭教育的基础性作用,更好地促进孩子们健康成长和生活个性化。  关键词:家庭教育;推荐算法;个性化推荐;教育平台  中图分类号:TP312 文献标识码:A  文章编号:
摘要:目前,很多高校都在使用综合性的教务网络管理系统,这些系统的应用在一定程度上实现了教务管理工作的规范化、科学化、网络化和现代化。但是这些系统的数据统计和分析能力却较弱,能直接用于教务管理的数据分析十分有限。大数据技术的普及,探究教务网络管理系统的改革和优化设计,进而不断提高高校教务管理水平是目前众多高校面临的问题。  关键词:高校;大数据;改革;教务;管理  中图分类号:G642 文献标识码:
摘要:本文先对电子电工实验中模拟仿真技术的意义进行简析,然后在保障安全、控制成本与培养人员创新能力等相关方面,总结模拟仿真技术在电子电工实验中的作用,进而在试验内容与实际应用相关基础上,阐述电子对电子电工实验中模拟仿真技术的实际应用。  关键词:电子电工;模拟仿真;作用  中图分类号:TP3 文献标识码:A  文章编号:1009-3044(2019)35-0243-02  在电子电工专业中,实验是
以图书馆深化创新、提高服务水平为目的,对数字图书馆应用做了深入的探讨。对数字图书馆进行概要性地分析,提出了数字图书馆应用的需求分析,并从信息资源系统、管理系统、移
摘要:AHTS多用途工作船具有动力定位功能,主要用于海上打捞救助、海洋石油平台供应、散液货供应及远洋拖带功能等。基于船舶作业的安全需要和多功能化发展,一个可靠性高、功能齐全的船舶电站自动化控制系统是很有必要的。本文以具有DP2定位的AHTS船舶的电力系统(440V/60Hz)为平台,详细地阐述了船舶电站的设计过程和实现方法,采用西门子公司S7-200型可编程控制器和丹麦DEIF公司生产的多功能控制
摘要:在线课程不受时空限制,使得课堂教学得以时空延伸,是目前最高效的学习途径之一,推动了现代化教育事业的发展。在建设在线课程的过程中,遵循在线课程的建設原则,就授课对象、课程内容、授课终端、课程监督考核机制等做了详尽的介绍,以达到课程的教学目的。  关键词:NCRE;在线课程;微课;项目驱动;主题专项  中图分类号:G424文献标识码:A  文章编号:1009-3044(2019)36-0212-
摘要:一直以来,《大学计算机基础》教学的一个共同问题就是新生入校时所具有的计算机基础知识和计算机应用水平参差不齐,这给计算机基础教学带来很大的困难。以“应用为目的,以实践为重点,提高大学生的信息素养”是大学计算机基础的教育观念。而正因为此问题无法解决,导致其目标实现非常困难。为了解决此问题,大学计算机基础教学引入了分层次教学模式,效果非常有效。  关键词:大学;计算机基础;分层次教学  中图分类号
该文以《解斜三角形》为课题,探讨如何以业速云平台为基础,搭建学生课前、课中、课后的学习平台,以任务为导向,帮助学生进行高效数学专题知识复习。
摘要:函数极限是极限的一个重要内容,求函数极限的方法多种多样,本文主要通过例题来阐述了几种求函数极限的方法。求极限的方法不可能全部列举出来,希望通过这几种求解方法的介绍展现极限思想的本质。  关键词:函数极限;四则运算法则;洛必达法则  中图分类号:TP393 文献标识码:A  文章编号:1009-3044(2019)35-0247-02  极限是数学中一个非常重要的概念,广义上的极限是指无限接近
摘要:“互联网 教育”的出现使学生除了正常的课堂学习之外,还能利用互联网技术和设备随时随地积累自己的知识和技能。本文以《信息与网络安全技术》课程为例,从在线教学资源、线上与线下有机融合、综合应用多种教学模式和变革课程考核方法4个方面阐述了基于“互联网 ”的创新教学模式。经过近几年的实践,课程教学效果和学生实践动手能力明显提升。  关键词:互联网 ;教学模式;开放  中图分类号:G642 文献标识码