外卖用户差评影响因素研究

来源 :现代商贸工业 | 被引量 : 0次 | 上传用户:lie_luren
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
  摘 要:以“百度外卖”和“美团外卖”上的用户差评评论为研究对象,通过利用Word2vec工具对差评评论特征词汇进行聚类,发掘外卖用户差评影响因素。在经过评论抓取、分词、特征词发掘、关键词选取以及基于Word2vec的聚类过程后,最终得到用户差评影响因素,并针对影响因素对外卖商家经营提出了建议。
  关键词:差评影响因素;词语聚类;Word2vec
  中图分类号:F27
  文献标识码:A
  doi:10.19311/j.cnki.16723198.2017.02.027
  外卖行业随着互联网的不断发展,逐渐成为普通人用餐的一种重要方式。2015年,中国餐饮O2O市场规模为1615.5亿元,占餐饮行业总体的比重为5.0%,预计2018年餐饮O2O市场将达到2897.9亿元。在现代电子商务中,买家因为对服务不满意而给出的评价即为差评。本文通过分析用户差评评论,使用TF-IDF方法挖掘用户差评文本中的关键词汇,再利用Word2vec方法对关键词汇进行聚类,从商家视角出发发掘用户差评影响因素,为商家改善自身服务提供建议。
  1 网上评论的抓取
  “饿了么”、“美团外卖”和“百度外卖”是中国领先的在线外卖平台,根据比达咨询发布的2016年第二季度中国第三方餐饮外卖市场研究报告,2016年第二季度中国外卖平台市场份额主要由这三家外卖平台瓜分,其中,“饿了么”以36.7%的市场份额领跑,“美团外卖”市场份额为29.0%,“百度外卖”以19.9%的市场份额排名第三。
  通过对三家外卖平台的用户评论进行阅读,发现只有“美团外卖”和“百度外卖”明确对“差评”进行了归类,并且可以抓取到“差评”类别下的所有用户评论,而“饿了么”平台并未对“差评”评论进行归类。所以,本文选取“美团外卖”和“百度外卖”平台作为研究对象。
  利用Java语言设计了基于Html标签的网络爬虫程序,通过该程序抓取了“美团外卖”、“百度外卖”2家外卖平台旗下5大类(早餐类、正餐类、甜品饮品类、夜宵类、其他类)、每类10家典型店铺的10条差评评论,共1000条评论。为了保证评论文本能够被特征项充分表示,获得最佳的数据处理效果,将抓取出的所有文本合并为一个文档来进行研究。
  2 数据处理
  数据预处理是指对原始文本数据做初级处理,形成可以表征文本含义的特征词汇。在生成特征词汇之前,需要对原始语料进行分词处理。本文采用中科院计算技术研究所设计的分词程序对评论语料进行分词处理,在完成去除重复词、停用词、语气词等一系列预处理后,形成了初步的特征词簇。
  经过数据预处理后,得到的特征词汇较多,为了找到可以充分表征评论语句含义的关键词汇,采用TF-IDF法计算词汇权重,并根据权重大小提取关键词汇。
  TF-IDF是一种统计方法,用以评估字、词对于一个文件集或一个语料库中的其中一份文件的重要程度,TF意味词频,IDF意味逆文档频率。根据TF-IDF的思想,词汇的代表性和它在文件中出现的次数成正比,与它在语料库中出现的频率成反比下降,TF-IDF算法如公式(1)、(2)和(3)。
  其中,tfi,j表示特征词在评论语料集中出现的频率,D表示语料库文件总数,{j:ti∈dj}表示语料库中包含该特征词的文件数目。
  为了提取出评论中的关键词汇,引入国家语委现代漢语平衡语料库进行对比研究,采用TF-IDF方法计算数据源文档中经过数据预处理的词汇的TF-IDF值。经过对计算结果进行分析,设定阈值为0.002,进行过滤处理,得到经过初步筛选后的70个关键词,接下来本文将利用Word2Vec工具对关键词进行聚类。
  3 基于Word2vec的关键词聚类
  3.1 Word2vec工作原理
  Word2vec是谷歌在2012年实现的开源语言建模工具,主要用于自然语言处理领域。该工具使用连续的bag-of-word模型,以及计算词向量的skip-gram结构。Word2vec将文本集作为输入,将每个词对应的生成向量作为输出,通过生成的词向量,可以计算与用户指定词语之间的距离(相似度)。它以文本预料作为输入,通过训练生产每个词汇对应的词向量,可以根据词向量计算两个词的相似程度。例如,用户输入“味道”,Word2vec工具可以分析出与“味道”词义相近的词汇,并给出表征相似程度的数值。
  Word2vec利用Skip-Gram算法进行词向量分析。Skip-Gram算法根据当前单词预测语境。Skip-gram算法目标是寻找参数集合θ,使得下式所示条件概率的乘积最大化:
  argmaxθ∏w∈Text∏c∈C(w)p(c|w;θ)(4)
  其中,θ是模型参数,w表示文本词汇,Text是文本词汇集合,C(w)表示在文本词汇集合Text中,词汇w出现过的语境包含的词汇的集合;c表示语境中的词汇,c∈C(w);p(c|w)表示当w出现时,某一语境c出现的概率;
  Skip-Gram算法认为,通过最大化如公式(4)所示的条件概率,使得单词和语境之间的对应关系最大化,而满足条件概率最大化的单词矢量,也就成为了单词语义的合理表示。Word2vec利用上述原理对词汇进行矢量化,并据此计算词汇之间的相似度。
  3.2 利用Word2vec进行聚类分析
  Word2vec需要运行在Linux环境中。将评论文本语料库文件,放入Word2vec目录下,并修改demo-word.sh文件,设置词向量维数为200,采用skip-gram模型进行机器学习。运行命令sh demo-word.sh后,等待训练集完成,模型训练完成之后,可以得到vectors.bin词向量文件,利用./distance命令计算词语间的cosine相似度,再根据词汇间相似度进行聚类。   设定聚类类别个数为-classes为10类,使用./word2vec-train word.txt -output classes.txt -cbow 0 -size 20 -window 5 -negative 0 -hs 1 -sample 1e-3 -threads 12 –classes10 进行聚类分析。命令各字段的含义如表1所示。
  运行上述命令后,可以得到聚类结果。分析聚类结果,发现TF-IDF值和排名前5的词汇聚簇如表2所示。
  根据word2vec进行聚类分析的结果,发现消费者给予差评的原因主要是在配送速度,食品味道、食品卫生、服务态度以及食品分量等方面对商家感到了不满意。
  3.3 聚类结果分析
  通过利用word2vec工具对餐饮O2O用户差评语料进行数据挖掘和数据分析,发掘了用户给予差评的主要原因,针对上述原因,我本文为餐饮O2O行业提出以下建议:
  聚类结果表明,与传统餐饮行业不同,配送速度是影响用户用餐体验的最关键因素。餐饮O2O行业与传统食品行业最大的區别在于,餐饮O2O行业多了配送环节,而食品在保温、保鲜方面对于时间间隔要求比较苛刻,因此消费者对配送时间有着较高的要求。商家应当制定科学的配送方案,同时和第三方配送机构展开积极合作,保证食品尽快配送到位。第二个因素是食品味道。食品的根本在于口味,因此商家应当注重提高食品质量,加大食品、菜品创新力度,着力保证食品口味使消费者满意。第三个因素是食品卫生,食品安全、卫生是餐饮O2O行业的根本,因此餐饮O2O行业应当提高食品安全、卫生意识,注意在进行食品配送时提供良好的包装,同时注意不要造成食品的泼洒,保证食品的整洁、干净。第四个因素是服务态度,餐饮O2O行业作为服务业要积极培养良好的服务意识,在与消费者进行沟通时要保持良好的态度,妥善解决消费者的各类问题。最后,用户对于食品分量也有着较高的要求,商家应当保证食品分量与宣传相符,同时可以通过加量的方式赢得消费者好感,要杜绝食品分量过少或者与宣传不符现象的出现。
  4 结语
  本文通过利用word2vec工具对餐饮O2O用户差评语料进行数据挖掘和数据分析,发现用户给予差评的主要原因在于商家在配送速度、食品味道、食品卫生、服务态度以及食品分量等方面给用户带来了不好的用餐体验。研究结论为餐饮O2O行业从业者提供了有益启示,有利于商家进一步了解消费者对于目前外卖行业的不满意之处,从而更加有针对性的改进自身服务。
  参考文献
  [1]李明.网店图书差评信息特征探析[J].图书情报工作,2012,(s2):324326.
  [2]陆海霞,吴小丁,苏立勋.差评真的那么可怕吗?——负面线上评论对消费者购买行为的影响研究[J].北京社会科学,2014,(5):102109.
  [3]曾剑秋,王帆.O2O在线外卖用户满意度研究与实证分析[J].现代情报,2015,35(8):1721.
  [4]陈海涛,李同强,宋姗姗.在线外卖平台用户重复购买行为的建模与实证研究[J].软科学,2015,29(11):7982.
  [5]张艳丰,李贺,彭丽徽.负面评论挖掘的网络口碑危机预警模糊推理[J].图书情报工作,2016,60(9):7582.
  [6]程明贝,黄刚,张国富.基于AHP法对外卖网站的综合评价——以“饿了么”网站为例[J].江苏商论,2015,(12):5758.
  [7]周练.Word2vec的工作原理及应用探究[J].科技情报开发与经济,2015,(2):145148.
  [8]黄仁,张卫.基于word2vec的互联网商品评论情感倾向研究[J].计算机科学,2016,43(s1):387389.
  [9]张冬雯,杨鹏飞,许云峰.基于word2vec和SVMperf的中文评论情感分类研究[J].计算机科学,2016,43(s1).
  [10]Fei B.Study of China’s online catering market under the booming of online group purchasing[J].2010.
  [11]Goldberg Y,Levy O. word2vec Explained: deriving Mikolov et al.'s negative-sampling word-embedding method[J].Eprint Arxiv,2014.
  [12]Rong X.word2vec Parameter Learning Explained[J].Computer Science,2014.
  [13]比达网.2016年第2季度中国第三方餐饮外卖市场研究报告[OL].http://www.bigdata-research.cn/content/201608/312.html,20160803.
其他文献
摘 要:在当今经济发展的大潮中,各个城市经济发展的竞争越来越激烈,如何才能屹立于竞争之林中而不倒呢?答案就是要有自己的特色,一个城市如果没有自己的特色,那只能随波逐流,最终被淹没在竞争的大潮中。一个城市的特色就是它的名片,城市名片能充分反应当地的文化、经济特色,代表了城市品牌形象和文化特色,如何利用自己的特色来促进城市经济产业的发展成为了城市建设热议的话题。为此,以沧州市为例,通过介绍沧州市的城市
期刊
摘 要:围绕政府、企业和高校及科研院所这三大主要参与主体,分析其对科技公共服务平台资源共享的作用机理,运用演化博弈论来构建两两博弈模型,探索了博弈双方行为的演化过程及演化稳定策略并进行敏感性分析。研究表明:科技公共服务平台资源共享的有效性发挥与政府的监管力度、企业的参与动机、高校及科研院所创新资源投入的动力等因素相关。当博弈系统朝着良好的演化趋势发展,科技公共服务平台的资源共享问题才能得以真正解决
期刊
摘要:地下空间结构出现裂缝对建筑而言将产生巨大的威胁,但是地下空间的钢筋混凝土结构出现裂缝又是不能避免的情况。那么如何有效的对其裂缝进行控制,做好防水工作是建筑设计者们最为关心的问题。结构裂缝产生的原因很复杂,根据国内外的调查资料,裂缝的产生与材料、设计、施工及维护有关。为此,对地下空间钢筋混凝土结构的裂缝控制与防水加以研究,从本质上分析地下空间结构常出现的裂缝渗漏水问题及其控制措施。  关键词:
期刊
摘要:利用2007-2015年制造业上市公司数据,对融资结构、代理成本和公司价值之间的关系进行统计分析和实证检验。结果发现:托宾Q值与股票价格的变动趋势比较一致,说明托宾Q与股票价格之间存在密切关系;资产负债率总体上呈下降趋势,说明制造业上市公司偿还债务的能力逐步增强;有息负债率和无息负债率波动都不大,说明从总体上看,制造业上市公司的融资政策比较稳定;有息负债率一直大于无息负债率,说明与商业信用比
期刊
摘要:养老服务业市场化在我国人口快速老龄化背景下解决养老服务供需矛盾的必然要求,推动养老服务业市场化应从培育多元化供给主体、创新多样化的供给模式、丰富多层次的养老服务内容、推动服务对象的公众化等方面发力,同时应健全养老服务相关配套政策,加强人才培养、市场监管和宣传引导。  关键词:养老服务业;市场化;养老机构;成都  中图分类号:D9  文献标识码:A  doi:10.19311/j.cnki.1
期刊
摘 要:新常态下,传统产业转型升级、调整结构的要求迫切。矿山企业响应中央政策要求,推进企业供给侧改革,调整产业结构,优化企业生产效率,提升企业循环发展能力成为题中之義。基于在凡口铅矿,在深入了解企业发展实际情况的前提下,结合自身工作实际,谈矿山循环发展的思路。凡口铅锌矿面对矿山企业发展实际情况,在探索矿山循环发展方面有一些有益做法,结合凡口铅锌矿的探索经验,谈矿山循环经济发展,希望能够对矿山转型发
期刊
摘 要:地区间协同发展已经成为现如今经济发展的主流。区域间协作进行合理区域布局、优化产业结构会促进经济进一步发展。详细分析了在协同发展下北京、天津和河北省的具体定位及发展思路,并对河北省未来经济协同发展思路提出一些建议。  关键词:京津冀;协同发展;产业结构  中图分类号:F2  文献标识码:A  doi:10.19311/j.cnki.16723198.2017.02.010  1 引言  城市
期刊
摘要:数字指纹作为计算机安全领域广泛应用的一种散列函数,用以提供信息完整性的保护,采用数字指纹和XML等技术对用户登录系统进行设计及实现,并通过MD5技术解决实际应用中数据安全性的问题,使系统更为安全和灵活。  关键词:XML;MD5;SAX;JSP;用户登录模块  中图分类号:TB  文献标识码:A  doi:10.19311/j.cnki.16723198.2017.01.097  0引言  
期刊
摘 要:经济新常态是中央政府在国内外经济发展趋势作出的准确的判断和理解。当今世界全球化进程不断加快,国际金融危机带来的外部风险对中国经济的发展已经产生了威胁。经济新常态时期出现的新特征,使人力资源的综合利用率得到了更为广泛的关注,只有制定并贯彻好人员管理机制,才能充分实现企业效益、个人效用的最大化。本研究通过对经济新常态下东北地区现有人力资源结构的阐述,总结分析民营企业目前人力资源开发存在的问题,
期刊
摘 要:在综合运输的视角下,在国际国内经济发展形势以及“一带一路”战略构想的背景下提出的。首先探讨了发展天津空海港物流一体化的必要性及重要性;然后通过调研天津空海港物流一体化发展的现状,发现并研究了天津空海港物流一体化进程中存在的主要问题;最后结合对国内外空海港物流一体化运作模式的对比分析,提出了发展天津空海港物流一体化的改善对策。提出了天津空海港物流一体化的改善对策,有利于提高天津空海港物流中转
期刊