基于数据挖掘技术的“肥仔水”市场潜力分析

来源 :电脑知识与技术 | 被引量 : 0次 | 上传用户:lm403379799
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
  摘要:在大数据时代,数据挖掘技术和工具已取得瞩目的成就。该文基于八爪鱼采集器在“肥仔水”项目中的具体应用,介绍了八爪鱼的原理、特点以及使用方法,以及它在提升企业信息数据挖掘方面的优势。
  关键词:数据挖掘;八爪鱼;肥仔水;市场潜力
  中图分类号:TP391 文献标识码:A
  文章编号:1009-3044(2019)34-0017-03
  1 概述
  大数据和云计算的诞生改变了人类信息技术的面貌[1]。数据已经成为企业的核心资产。[2]大数据时代,如何迅速挖掘和分析数据,对于企业的决策有着重要的意义。近年来涌现出大量的数据挖掘软件,如集搜客、八爪鱼、狂人、Octoparse等,并且应用于商业、科技、政府等不同的领域。随着“互联网 ”和电商的兴起,大数据对商业经济的影响越来越大,如何从海量的数据中寻找出有价值的信息变得迫在眉睫。[3]本文将利用八爪鱼采集器在淘宝网和京东网上采集英国吴德物次肠痛水(简称肥仔水)以及其竞争对手的电商销售数据,并根据采集结果进行进一步分析,判断肥仔水是否能够进入中国大陆市场并对其市场前景做以预估。
  2 八爪鱼采集器简介
  八爪鱼采集器是由深圳视界信息技术有限公司自主研发,整合了网页数据采集、移动互联网数据及API接口服务(包括数据爬虫、数据优化、数据挖掘、数据存储、数据备份)等服务为一体的数据服务平台。适合产品、运营、销售、数据分析、政府机关、电商从业者、学术研究等多种身份职业的多种业务场景。可以提供舆情监控、市场分析、产品研发、风险预测等业务模块。[4]
  八爪鱼客户端使用的开发语言是C#,运行在Windows系统中,客户端主程序负责任务配置及管理、任务的云采集控制以及云集成数据的管理。八爪鱼采集器的核心原理是基于Firefox内核浏览器,通过模拟人浏览网页的行为(如打开网页、点击网页的某个按钮等操作)和设计工作流程,对网页内容进行全自动提取。它有四种采集模式:简易采集、智能采集、向导模式、自定义模式。价格也分为五个不同的等级。采集结果可手动或自动导出到数据库,存储为Excel、soL、TXT、MYsoL等格式。
  3 八爪鱼采集器的特点
  八爪鱼采集器全网适用,眼见即可采集。还有智能防封功能,可以自动破解多种验证码,提供IP代理池,结合UA切换,可有效突破封锁,顺利采集数据。内置数百个网站数据源,全面覆盖多个行业,并提供海量模板。同时还有分布式云集群服务器和多用户协作管理平台的支撑,可灵活调度任务,顺利爬取数据。它可零门槛三步获取数据:(1)打开客户端,选择建议模式和相应的网站模板;(2)预览模板的采集字段、参数设置和示例数据;(3)设置对应的参数,保存运行完成数据采集并导出数据。
  2019年4月25日八爪鱼版本更新后,收费方式也进行了调整,从原有的免费版和私有云收费版,升级为更加具体化的收费方案,如表1所示。对比各种收费版本提供的服务,旗舰版可作为个人的首选,而旗舰 版本的性价比最高。
  3.1 优势
  八爪鱼的通用性强,适用于所有互联网公开数据,可应对各种网页的复杂结构(瀑布流等)和防采集措施,可实现百分之九十九的数据抓取。八爪鱼操作简单,无须技术背景,这一特点决定了八爪鱼对初学者或者是零编程基础的用户十分具有亲和力。它模拟人浏览网页的操作,通过输入文字、点击元素、选择操作项等一些简单的操作,即可完成规则配置,无须编写代码,十分方便。八爪鱼在真正意义上实现了操作流程可视化,用户可打开流程按钮,可以清晰地看见具体操作流程,并可对每一步骤,进行高级选项的设置(修改ajax/xpath等)。更新后的八爪鱼收费标准更加丰富,给用户提供更多的选择。免费版具备所有的功能,能够满足用户的基本采集需求,增值服务如云采集,有5000台云服务器,可以24*7高效稳定的采集数据,结合API可无缝对接内部系统,定期同步爬取数据,可满足高端付费企业用户的需求,而且采集速度更快。
  3.2 劣势
  八爪鱼采集器目前还无法采集视频中的数据,同时,它只能采集和判断,并没有计算功能。虽然八爪鱼相较于神箭手、火车头、Octoparse、Visual WebRipper、ContentGrabber等不需要代码基础,更为平易近人,但是它却不像火车头采集器具有同义、近义词替换和参数替换的功能;和集搜客相比,八爪鱼无法抓取超链接里的数据。[5]
  4“肥仔水”案例数据挖掘及分析过程
  肥仔水,商品名为英国吴德物次肠痛水(WoodwardsGripe-Water),是一款非处方产品,化学名为GripeWater,1851年由英国药剂师William Woodward发明。19世纪40年代,英格兰东部的婴儿患有“fenfever”(芬热)的疾病,Woodward从治疗芬热和疟疾中汲取灵感,指出gripewater司以缓解婴儿肠绞痛,并在1876年将GripeWater注册为商标。此后吴德物次肠痛水以代代相传(Granny told Mother and Mother told me)的口号在欧美各国十分畅销。[6]但目前我国国内仍然没有任何化学名为GripeWater的产品在CFDA(中国食品药品监督管理总局)注册销售,许多使用肥仔水的顾客也大多采用网购、海淘的形式来购买。由于笔者曾在香港大昌行利丰医药有限公司市场部工作,大昌行在马来西亚的工厂负责生产销往欧洲的肥仔水,公司欲将该产品引进内地注册销售,但该项目最终以缺乏相关市场数据(购买第三方公司的数据太过昂贵)而搁置延迟。
  肥仔水竞争产品的选取依据两个原则:一是具有相同的化学名;二是产品具有相同的适应症和治疗效果。与肥仔水具有相同化學名但不同商品名的产品为Mommy’s Bliss妈宝乐;Lit-tle Remedies西甲硅油为物理缓解婴儿肠绞痛的非处方产品;衍生七星茶是香港老字号广为人知的药食同源产品,可以患者婴儿肠绞痛、消化不良等症状。后两种产品与肥仔水具有相同的适应症或治疗效果,具体信息如表2所示。   在学习数据挖掘这门课程时,笔者使用数据挖掘工具—八爪鱼采集器在京东、京东、eBay上分别采集了妈宝乐、西甲硅油和衍生七星茶的销售数据,并做如下分析。
  4.1 数据采集
  本次采集的日期为2019年4月20日,使用免费版本的简易采集模式。步骤如下:(1)先选取京东网为目标url,使用八爪鱼提供的“商品列表采集”模板,输入搜索关键词“gripewater”“肥仔水”“吴德物次肠痛水”,使用回车键切换,设置多个搜索关键词。并设置翻页次数为大于1的任意值,输入淘宝网账号和密码后,点击“保存并启动”。
  (2)采集页面的上半部分是八爪鱼浏览网页的全过程,下半部分为提取到的数据,包括商品名称、商家店名、价格、成交量、商品链接等。采集完毕后,会自动弹出“采集完成”的对话框,并提示共采集的数据量以及用时。
  (3)点击导出数据至excel,即可生成本次采集的表格。然后用同样的步骤分别采集出妈宝乐、西甲硅油和衍生七星茶在三个电商平台上的销售数据,采集完成后经初步筛选,删除掉不相关的数据,并汇总做进一步分析。
  4.2 市场现状
  经过数据汇总,由于eBay平台销量占比较小(不足10%可以忽略),文中主要以淘宝网和京东网上的数据作以分析。淘宝网3月20日至4月20日期间的销售数量以及平均价格换算成总销售金额,如表3所示。
  根据以上采集的数据,按肥仔水平均售价为58元/瓶计算,可以得出:(1)肥仔水在淘宝网的月均销量为5410瓶。在京东网采集到的销量为5620瓶。(2)衍生七星茶因为已经经过CF-DA审批并在内地开设了相应的中医门诊,有一定的销售模式和销量基础,其在淘宝和京东均占据了60%以上的市场份额。(3)在未注册上市的三个产品中,肥仔水和西甲硅油在淘宝网的销量相当,均高于妈宝乐;西甲硅油在京东网的总销量最好,其次是妈宝乐,肥仔水所占的市场份额最少。
  4.3 适应症人群
  GripeWater的适应症人群为1-7岁的婴幼儿,中国2012年至2018年间出生的婴儿总数为1.16亿。[7]根据中华医学会的统计数据,婴儿肠绞痛每年的平均发病率大约为20%。肥仔水为进口的非处方产品,消费群体定位为有经济基础的人群,根据国家统计局的数据,我国近年来城市人口占总人口的40%,因此计算得出肥仔水的适应症人群的总数量为930万,按每位患儿每次够买一瓶的最低数量,即每年930万瓶销量。
  4.4 潜力分析
  婴儿肠绞痛在中国内地有着庞大的消费群体,但目前的市场除了网购和海淘外,还未被任何一个强有力的竞争者所占据。大昌行集团在马来西亚的工厂可直接供货给内地,这样减少了中间流通环节和其他风险因素,同时提高了利润空间。
  肥仔水虽然为非处方产品,但是仍要以医院内开展的学术活动为核心。大昌行可凭借在国内儿童医院多年的销售经验,由团队的医药信息沟通专员负责各区域线下核心医院的学术推广,配合线上强有力的品牌影响力以及电商活动。因非处方类药品需要向CFDA提交注册审批,一般注册期为两年,预计2021年上市销售,基于医院、药店的调研、公司业务覆盖的规模以及以往的销售基础,对肥仔水未来三年的销售做以下预估(产品利润与采购价格涉及公司机密,因此不予公布产品价格结构)。
  基于以上分析,肥仔水具有可观的市场潜力以及利润预估,鉴于国内还没有竞争对手占领市场,因此是进入中国内地的好时机。
  5 结束语
  在本项目案例中,八爪鱼充分发挥了不需要编程的优势,并且可视化的流程可以确保数据的采集基本无误。但是数据的计算部分需要用户自己完成。由于笔者采用的是简易采集模式,只能使用其中固定的模板,虽然十分便捷,但数据挖掘还较为粗糙,如果需要添加其余参数,或需要更加精准的数据,就需要使用付费版本的云采集模式,或者使用神箭手等需要编写程序以获得个性化需求的采集器。
  八爪鱼作为一款比较成熟且方便的数据挖掘工具,可在企业的实际工作中根据需要筛选出有价值的信息,从而帮助企业提升效率、把握资源、提高市场竞争力。
  参考文献:
  [1]李燕.提高档案服务能力的新模式一云档案馆服务优势浅析[J].云南档案,2013(05):56.
  [2]茅斯佳.基于数据挖掘技術的卷烟营销BI应用初探[J].东方烟草报,2018(12):1-2.
  [3]尹青正,吴海燕,等.大数据对商业经济的影响[J].中国新通信,201 8,20(14):244.
  [4]八爪鱼.[EB/OLl.[2019-06-01]. https://www.bazhuayu.com.
  [5]干货:国内外十大主流采集器软件盘点.[EB/OL].[2019-06-01].https//www.bazhuayu.c om/blog/421.
  [6] Gripe Water[EB/OL].[2019-06-01]. https://en.wikipedia.org/wi-ki/G ripe_water.
  [7]国家统计局年度数据[EB/OL].[2019-06-03].http://data.stats.gov.cn/easyquery.htm?cn=C 01.
  【通联编辑:朱宝贵】
  收稿日期:2019 -10 -15
  作者简介:乔萌萌,上海大学图书情报2018级硕士研究生,主要研究方向为数字人文、图书馆学。
其他文献
摘要:作为经济发展体系中至关重要的一环,我国商业银行扮演着不可或缺的角色作用。高速的发展、不断提升的技术、改进扩充的设备规模使得我国商业银行竞争力与日俱增。然而,在信息数据高速运转的今日,我国商业银行的信息安全管理体现出其薄弱性和不成熟性,对于风险投资的轻视、对于管理安全的忽略为我国商业银行的发展造成了隐藏的巨大阻碍。不够成熟的系统、未完全开化的软硬件、有待斟酌的信息安全管理制度都为我国商业银行未
摘要:随着互联网的普及,传统教学模式无法满足现代社会的教学需求,多媒体教学课件能优化传统教学模式。本文阐述flash交互式课件制作的要素,设计并制作了《计算机应用基础》课程的课件,重点介绍了课件交互的具体实现方法。flash交互式课件促进师生课堂交流,简化知识难点,提升学生自主学习的能力。  关键词:flash; 交互式课件  中图分类号:TP37 文献标识码:A 文章编号:1009-3044(2
摘要:从当前的实际情况来看,计算机专业逐渐成为职业教育体系中的重点内容。因此,在中職计算机教学中,如何提高教学有效性成为教师需要重点考虑的问题。为此,该文将参照笔者实际的从教经验,以《常用办公设备使用与维护》的教学为例,谈一谈应该怎样提高中职计算机教学的有效性。  关键词:有效教学;中职计算机;教学策略  中图分类号:G642 文献标识码:A  文章编号:1009-3044(2019)23-
摘要:本次研究的重点是对应届毕业生就业心理的调查,包括就业方向、愿景以及对学校教育教学的建议和意见等。通过对毕业生就业心理的了解,能使得各高校各级就业指导部门可以为毕业生提供更好的就业指导,进一步改革现有的教学方案,提高学生就业竞争力。一方面解决应届毕业生“难”就业的问题,另一方面帮助企业解决找“不”到人的尬境,使得学校与企业进行良好衔接。  关键词:计算机专业;应用型本科;应届毕业生;就业心理 
摘要:民宿作为旅游业中的一部分在当今互联网时代快速发展,为了更好适应新时代发展,民宿行业有必要利用大数据分析实现精准策略营销以提高营销能力与业绩。本文以阳朔县民宿行业为例,通过分析大数据精准营销的特点和阳朔民宿行业营销存在的问题,提出了精准营销的建议与策略,以促进阳朔民宿业快速发展。  关键词:大数据;民宿;精准营销;问题;策略  中图分类号:TP311 文献标识码:A  文章编号:1009-3
摘要:教育信息化2.0是缩小教育差距、促进教育公平发展的又一个机遇期。本文在教育信息化2.0的时代背景下,结合怒江州的基本情况尝试分析信息化教学四种课堂类型的主要特点,正视实施过程中面临的诸多障碍,并尝试阐明教育信息化对义务教育均衡发展的重要意义。教育相对落后地区的要立足自身、跟进政策、抓住机会,才能借互联网 教育的大潮实现本地区教育的跨越式发展。  关键词:教育信息化;云课堂;双师课堂;智师课堂
摘要:城市公园作为本地居民休闲、游览的重要游憩空间在改革开放后得到了迅速的发展。该文以上海市151个星级公园为研究对象,来对上海市星级公园发展变迁进行深入的探讨。研究发现:从时间上看,上海市星级公园的演化大致可以分为1949年以前、1949—1982年、1983年—1999年、2000年后四个阶段;空间变迁上呈现出由点到面,由市中心向浦东再到全域发展的特点。而以市民为代表的相关利益相关者阶层的壮大
摘要:在数字媒体快速发展的时代,Flash多媒体技术以独特优势运用到计算机学科的教学中,它具有制作简单、描述形象、交互性强、能测试巩固知识点,并且文件小、演示方便等优势。该文以《汽车空调》Flash多媒体交互课件为例,展示了计算机学科多媒体课件的设计步骤与思路,并讲述了将多媒体交互技术与计算机学科融合的体会。  关键词: 计算机;多媒体;交互;课件  中图分类号:TP3 文献标识码:A  文
摘要:本文针对电子商务平台容易受到各类攻击进行,给出具体应用策略。首先对电子商务平台存在的漏洞进行研究分析,根据企业实际环境搭建虚拟仿真渗透测试环境,对电子商务平台和服务器进行渗透测试,找到已知或未知漏洞,并给出漏洞解决方案和应对策略。  关键词:电子商务平台;渗透测试;安全策略  中图分类号:TP319 文献标识码:A  文章编号:1009-3044(2019)30-0281-03  随着5G时
摘要:基本的JavaWeb开发分成Modell和Model2两种模式。本文分析了基于Moddl模式的Javaweb项目驱动教学的优点,以及这种模式对于后续框架课程支撑的不足。详细介绍了基于Mode12模式的教学设计以及实施时面临的问题。关键词:Javaweb;项目驱动式教学;M0dell模式;M0del2模式  中图分类号:G642 文献标识码:A  文章编号:1009-3044(2019)28-