论文部分内容阅读
摘 要:以“百度外卖”和“美团外卖”上的用户差评评论为研究对象,通过利用Word2vec工具对差评评论特征词汇进行聚类,发掘外卖用户差评影响因素。在经过评论抓取、分词、特征词发掘、关键词选取以及基于Word2vec的聚类过程后,最终得到用户差评影响因素,并针对影响因素对外卖商家经营提出了建议。
关键词:差评影响因素;词语聚类;Word2vec
中图分类号:F27
文献标识码:A
doi:10.19311/j.cnki.16723198.2017.02.027
外卖行业随着互联网的不断发展,逐渐成为普通人用餐的一种重要方式。2015年,中国餐饮O2O市场规模为1615.5亿元,占餐饮行业总体的比重为5.0%,预计2018年餐饮O2O市场将达到2897.9亿元。在现代电子商务中,买家因为对服务不满意而给出的评价即为差评。本文通过分析用户差评评论,使用TF-IDF方法挖掘用户差评文本中的关键词汇,再利用Word2vec方法对关键词汇进行聚类,从商家视角出发发掘用户差评影响因素,为商家改善自身服务提供建议。
1 网上评论的抓取
“饿了么”、“美团外卖”和“百度外卖”是中国领先的在线外卖平台,根据比达咨询发布的2016年第二季度中国第三方餐饮外卖市场研究报告,2016年第二季度中国外卖平台市场份额主要由这三家外卖平台瓜分,其中,“饿了么”以36.7%的市场份额领跑,“美团外卖”市场份额为29.0%,“百度外卖”以19.9%的市场份额排名第三。
通过对三家外卖平台的用户评论进行阅读,发现只有“美团外卖”和“百度外卖”明确对“差评”进行了归类,并且可以抓取到“差评”类别下的所有用户评论,而“饿了么”平台并未对“差评”评论进行归类。所以,本文选取“美团外卖”和“百度外卖”平台作为研究对象。
利用Java语言设计了基于Html标签的网络爬虫程序,通过该程序抓取了“美团外卖”、“百度外卖”2家外卖平台旗下5大类(早餐类、正餐类、甜品饮品类、夜宵类、其他类)、每类10家典型店铺的10条差评评论,共1000条评论。为了保证评论文本能够被特征项充分表示,获得最佳的数据处理效果,将抓取出的所有文本合并为一个文档来进行研究。
2 数据处理
数据预处理是指对原始文本数据做初级处理,形成可以表征文本含义的特征词汇。在生成特征词汇之前,需要对原始语料进行分词处理。本文采用中科院计算技术研究所设计的分词程序对评论语料进行分词处理,在完成去除重复词、停用词、语气词等一系列预处理后,形成了初步的特征词簇。
经过数据预处理后,得到的特征词汇较多,为了找到可以充分表征评论语句含义的关键词汇,采用TF-IDF法计算词汇权重,并根据权重大小提取关键词汇。
TF-IDF是一种统计方法,用以评估字、词对于一个文件集或一个语料库中的其中一份文件的重要程度,TF意味词频,IDF意味逆文档频率。根据TF-IDF的思想,词汇的代表性和它在文件中出现的次数成正比,与它在语料库中出现的频率成反比下降,TF-IDF算法如公式(1)、(2)和(3)。
其中,tfi,j表示特征词在评论语料集中出现的频率,D表示语料库文件总数,{j:ti∈dj}表示语料库中包含该特征词的文件数目。
为了提取出评论中的关键词汇,引入国家语委现代漢语平衡语料库进行对比研究,采用TF-IDF方法计算数据源文档中经过数据预处理的词汇的TF-IDF值。经过对计算结果进行分析,设定阈值为0.002,进行过滤处理,得到经过初步筛选后的70个关键词,接下来本文将利用Word2Vec工具对关键词进行聚类。
3 基于Word2vec的关键词聚类
3.1 Word2vec工作原理
Word2vec是谷歌在2012年实现的开源语言建模工具,主要用于自然语言处理领域。该工具使用连续的bag-of-word模型,以及计算词向量的skip-gram结构。Word2vec将文本集作为输入,将每个词对应的生成向量作为输出,通过生成的词向量,可以计算与用户指定词语之间的距离(相似度)。它以文本预料作为输入,通过训练生产每个词汇对应的词向量,可以根据词向量计算两个词的相似程度。例如,用户输入“味道”,Word2vec工具可以分析出与“味道”词义相近的词汇,并给出表征相似程度的数值。
Word2vec利用Skip-Gram算法进行词向量分析。Skip-Gram算法根据当前单词预测语境。Skip-gram算法目标是寻找参数集合θ,使得下式所示条件概率的乘积最大化:
argmaxθ∏w∈Text∏c∈C(w)p(c|w;θ)(4)
其中,θ是模型参数,w表示文本词汇,Text是文本词汇集合,C(w)表示在文本词汇集合Text中,词汇w出现过的语境包含的词汇的集合;c表示语境中的词汇,c∈C(w);p(c|w)表示当w出现时,某一语境c出现的概率;
Skip-Gram算法认为,通过最大化如公式(4)所示的条件概率,使得单词和语境之间的对应关系最大化,而满足条件概率最大化的单词矢量,也就成为了单词语义的合理表示。Word2vec利用上述原理对词汇进行矢量化,并据此计算词汇之间的相似度。
3.2 利用Word2vec进行聚类分析
Word2vec需要运行在Linux环境中。将评论文本语料库文件,放入Word2vec目录下,并修改demo-word.sh文件,设置词向量维数为200,采用skip-gram模型进行机器学习。运行命令sh demo-word.sh后,等待训练集完成,模型训练完成之后,可以得到vectors.bin词向量文件,利用./distance命令计算词语间的cosine相似度,再根据词汇间相似度进行聚类。 设定聚类类别个数为-classes为10类,使用./word2vec-train word.txt -output classes.txt -cbow 0 -size 20 -window 5 -negative 0 -hs 1 -sample 1e-3 -threads 12 –classes10 进行聚类分析。命令各字段的含义如表1所示。
运行上述命令后,可以得到聚类结果。分析聚类结果,发现TF-IDF值和排名前5的词汇聚簇如表2所示。
根据word2vec进行聚类分析的结果,发现消费者给予差评的原因主要是在配送速度,食品味道、食品卫生、服务态度以及食品分量等方面对商家感到了不满意。
3.3 聚类结果分析
通过利用word2vec工具对餐饮O2O用户差评语料进行数据挖掘和数据分析,发掘了用户给予差评的主要原因,针对上述原因,我本文为餐饮O2O行业提出以下建议:
聚类结果表明,与传统餐饮行业不同,配送速度是影响用户用餐体验的最关键因素。餐饮O2O行业与传统食品行业最大的區别在于,餐饮O2O行业多了配送环节,而食品在保温、保鲜方面对于时间间隔要求比较苛刻,因此消费者对配送时间有着较高的要求。商家应当制定科学的配送方案,同时和第三方配送机构展开积极合作,保证食品尽快配送到位。第二个因素是食品味道。食品的根本在于口味,因此商家应当注重提高食品质量,加大食品、菜品创新力度,着力保证食品口味使消费者满意。第三个因素是食品卫生,食品安全、卫生是餐饮O2O行业的根本,因此餐饮O2O行业应当提高食品安全、卫生意识,注意在进行食品配送时提供良好的包装,同时注意不要造成食品的泼洒,保证食品的整洁、干净。第四个因素是服务态度,餐饮O2O行业作为服务业要积极培养良好的服务意识,在与消费者进行沟通时要保持良好的态度,妥善解决消费者的各类问题。最后,用户对于食品分量也有着较高的要求,商家应当保证食品分量与宣传相符,同时可以通过加量的方式赢得消费者好感,要杜绝食品分量过少或者与宣传不符现象的出现。
4 结语
本文通过利用word2vec工具对餐饮O2O用户差评语料进行数据挖掘和数据分析,发现用户给予差评的主要原因在于商家在配送速度、食品味道、食品卫生、服务态度以及食品分量等方面给用户带来了不好的用餐体验。研究结论为餐饮O2O行业从业者提供了有益启示,有利于商家进一步了解消费者对于目前外卖行业的不满意之处,从而更加有针对性的改进自身服务。
参考文献
[1]李明.网店图书差评信息特征探析[J].图书情报工作,2012,(s2):324326.
[2]陆海霞,吴小丁,苏立勋.差评真的那么可怕吗?——负面线上评论对消费者购买行为的影响研究[J].北京社会科学,2014,(5):102109.
[3]曾剑秋,王帆.O2O在线外卖用户满意度研究与实证分析[J].现代情报,2015,35(8):1721.
[4]陈海涛,李同强,宋姗姗.在线外卖平台用户重复购买行为的建模与实证研究[J].软科学,2015,29(11):7982.
[5]张艳丰,李贺,彭丽徽.负面评论挖掘的网络口碑危机预警模糊推理[J].图书情报工作,2016,60(9):7582.
[6]程明贝,黄刚,张国富.基于AHP法对外卖网站的综合评价——以“饿了么”网站为例[J].江苏商论,2015,(12):5758.
[7]周练.Word2vec的工作原理及应用探究[J].科技情报开发与经济,2015,(2):145148.
[8]黄仁,张卫.基于word2vec的互联网商品评论情感倾向研究[J].计算机科学,2016,43(s1):387389.
[9]张冬雯,杨鹏飞,许云峰.基于word2vec和SVMperf的中文评论情感分类研究[J].计算机科学,2016,43(s1).
[10]Fei B.Study of China’s online catering market under the booming of online group purchasing[J].2010.
[11]Goldberg Y,Levy O. word2vec Explained: deriving Mikolov et al.'s negative-sampling word-embedding method[J].Eprint Arxiv,2014.
[12]Rong X.word2vec Parameter Learning Explained[J].Computer Science,2014.
[13]比达网.2016年第2季度中国第三方餐饮外卖市场研究报告[OL].http://www.bigdata-research.cn/content/201608/312.html,20160803.
关键词:差评影响因素;词语聚类;Word2vec
中图分类号:F27
文献标识码:A
doi:10.19311/j.cnki.16723198.2017.02.027
外卖行业随着互联网的不断发展,逐渐成为普通人用餐的一种重要方式。2015年,中国餐饮O2O市场规模为1615.5亿元,占餐饮行业总体的比重为5.0%,预计2018年餐饮O2O市场将达到2897.9亿元。在现代电子商务中,买家因为对服务不满意而给出的评价即为差评。本文通过分析用户差评评论,使用TF-IDF方法挖掘用户差评文本中的关键词汇,再利用Word2vec方法对关键词汇进行聚类,从商家视角出发发掘用户差评影响因素,为商家改善自身服务提供建议。
1 网上评论的抓取
“饿了么”、“美团外卖”和“百度外卖”是中国领先的在线外卖平台,根据比达咨询发布的2016年第二季度中国第三方餐饮外卖市场研究报告,2016年第二季度中国外卖平台市场份额主要由这三家外卖平台瓜分,其中,“饿了么”以36.7%的市场份额领跑,“美团外卖”市场份额为29.0%,“百度外卖”以19.9%的市场份额排名第三。
通过对三家外卖平台的用户评论进行阅读,发现只有“美团外卖”和“百度外卖”明确对“差评”进行了归类,并且可以抓取到“差评”类别下的所有用户评论,而“饿了么”平台并未对“差评”评论进行归类。所以,本文选取“美团外卖”和“百度外卖”平台作为研究对象。
利用Java语言设计了基于Html标签的网络爬虫程序,通过该程序抓取了“美团外卖”、“百度外卖”2家外卖平台旗下5大类(早餐类、正餐类、甜品饮品类、夜宵类、其他类)、每类10家典型店铺的10条差评评论,共1000条评论。为了保证评论文本能够被特征项充分表示,获得最佳的数据处理效果,将抓取出的所有文本合并为一个文档来进行研究。
2 数据处理
数据预处理是指对原始文本数据做初级处理,形成可以表征文本含义的特征词汇。在生成特征词汇之前,需要对原始语料进行分词处理。本文采用中科院计算技术研究所设计的分词程序对评论语料进行分词处理,在完成去除重复词、停用词、语气词等一系列预处理后,形成了初步的特征词簇。
经过数据预处理后,得到的特征词汇较多,为了找到可以充分表征评论语句含义的关键词汇,采用TF-IDF法计算词汇权重,并根据权重大小提取关键词汇。
TF-IDF是一种统计方法,用以评估字、词对于一个文件集或一个语料库中的其中一份文件的重要程度,TF意味词频,IDF意味逆文档频率。根据TF-IDF的思想,词汇的代表性和它在文件中出现的次数成正比,与它在语料库中出现的频率成反比下降,TF-IDF算法如公式(1)、(2)和(3)。
其中,tfi,j表示特征词在评论语料集中出现的频率,D表示语料库文件总数,{j:ti∈dj}表示语料库中包含该特征词的文件数目。
为了提取出评论中的关键词汇,引入国家语委现代漢语平衡语料库进行对比研究,采用TF-IDF方法计算数据源文档中经过数据预处理的词汇的TF-IDF值。经过对计算结果进行分析,设定阈值为0.002,进行过滤处理,得到经过初步筛选后的70个关键词,接下来本文将利用Word2Vec工具对关键词进行聚类。
3 基于Word2vec的关键词聚类
3.1 Word2vec工作原理
Word2vec是谷歌在2012年实现的开源语言建模工具,主要用于自然语言处理领域。该工具使用连续的bag-of-word模型,以及计算词向量的skip-gram结构。Word2vec将文本集作为输入,将每个词对应的生成向量作为输出,通过生成的词向量,可以计算与用户指定词语之间的距离(相似度)。它以文本预料作为输入,通过训练生产每个词汇对应的词向量,可以根据词向量计算两个词的相似程度。例如,用户输入“味道”,Word2vec工具可以分析出与“味道”词义相近的词汇,并给出表征相似程度的数值。
Word2vec利用Skip-Gram算法进行词向量分析。Skip-Gram算法根据当前单词预测语境。Skip-gram算法目标是寻找参数集合θ,使得下式所示条件概率的乘积最大化:
argmaxθ∏w∈Text∏c∈C(w)p(c|w;θ)(4)
其中,θ是模型参数,w表示文本词汇,Text是文本词汇集合,C(w)表示在文本词汇集合Text中,词汇w出现过的语境包含的词汇的集合;c表示语境中的词汇,c∈C(w);p(c|w)表示当w出现时,某一语境c出现的概率;
Skip-Gram算法认为,通过最大化如公式(4)所示的条件概率,使得单词和语境之间的对应关系最大化,而满足条件概率最大化的单词矢量,也就成为了单词语义的合理表示。Word2vec利用上述原理对词汇进行矢量化,并据此计算词汇之间的相似度。
3.2 利用Word2vec进行聚类分析
Word2vec需要运行在Linux环境中。将评论文本语料库文件,放入Word2vec目录下,并修改demo-word.sh文件,设置词向量维数为200,采用skip-gram模型进行机器学习。运行命令sh demo-word.sh后,等待训练集完成,模型训练完成之后,可以得到vectors.bin词向量文件,利用./distance命令计算词语间的cosine相似度,再根据词汇间相似度进行聚类。 设定聚类类别个数为-classes为10类,使用./word2vec-train word.txt -output classes.txt -cbow 0 -size 20 -window 5 -negative 0 -hs 1 -sample 1e-3 -threads 12 –classes10 进行聚类分析。命令各字段的含义如表1所示。
运行上述命令后,可以得到聚类结果。分析聚类结果,发现TF-IDF值和排名前5的词汇聚簇如表2所示。
根据word2vec进行聚类分析的结果,发现消费者给予差评的原因主要是在配送速度,食品味道、食品卫生、服务态度以及食品分量等方面对商家感到了不满意。
3.3 聚类结果分析
通过利用word2vec工具对餐饮O2O用户差评语料进行数据挖掘和数据分析,发掘了用户给予差评的主要原因,针对上述原因,我本文为餐饮O2O行业提出以下建议:
聚类结果表明,与传统餐饮行业不同,配送速度是影响用户用餐体验的最关键因素。餐饮O2O行业与传统食品行业最大的區别在于,餐饮O2O行业多了配送环节,而食品在保温、保鲜方面对于时间间隔要求比较苛刻,因此消费者对配送时间有着较高的要求。商家应当制定科学的配送方案,同时和第三方配送机构展开积极合作,保证食品尽快配送到位。第二个因素是食品味道。食品的根本在于口味,因此商家应当注重提高食品质量,加大食品、菜品创新力度,着力保证食品口味使消费者满意。第三个因素是食品卫生,食品安全、卫生是餐饮O2O行业的根本,因此餐饮O2O行业应当提高食品安全、卫生意识,注意在进行食品配送时提供良好的包装,同时注意不要造成食品的泼洒,保证食品的整洁、干净。第四个因素是服务态度,餐饮O2O行业作为服务业要积极培养良好的服务意识,在与消费者进行沟通时要保持良好的态度,妥善解决消费者的各类问题。最后,用户对于食品分量也有着较高的要求,商家应当保证食品分量与宣传相符,同时可以通过加量的方式赢得消费者好感,要杜绝食品分量过少或者与宣传不符现象的出现。
4 结语
本文通过利用word2vec工具对餐饮O2O用户差评语料进行数据挖掘和数据分析,发现用户给予差评的主要原因在于商家在配送速度、食品味道、食品卫生、服务态度以及食品分量等方面给用户带来了不好的用餐体验。研究结论为餐饮O2O行业从业者提供了有益启示,有利于商家进一步了解消费者对于目前外卖行业的不满意之处,从而更加有针对性的改进自身服务。
参考文献
[1]李明.网店图书差评信息特征探析[J].图书情报工作,2012,(s2):324326.
[2]陆海霞,吴小丁,苏立勋.差评真的那么可怕吗?——负面线上评论对消费者购买行为的影响研究[J].北京社会科学,2014,(5):102109.
[3]曾剑秋,王帆.O2O在线外卖用户满意度研究与实证分析[J].现代情报,2015,35(8):1721.
[4]陈海涛,李同强,宋姗姗.在线外卖平台用户重复购买行为的建模与实证研究[J].软科学,2015,29(11):7982.
[5]张艳丰,李贺,彭丽徽.负面评论挖掘的网络口碑危机预警模糊推理[J].图书情报工作,2016,60(9):7582.
[6]程明贝,黄刚,张国富.基于AHP法对外卖网站的综合评价——以“饿了么”网站为例[J].江苏商论,2015,(12):5758.
[7]周练.Word2vec的工作原理及应用探究[J].科技情报开发与经济,2015,(2):145148.
[8]黄仁,张卫.基于word2vec的互联网商品评论情感倾向研究[J].计算机科学,2016,43(s1):387389.
[9]张冬雯,杨鹏飞,许云峰.基于word2vec和SVMperf的中文评论情感分类研究[J].计算机科学,2016,43(s1).
[10]Fei B.Study of China’s online catering market under the booming of online group purchasing[J].2010.
[11]Goldberg Y,Levy O. word2vec Explained: deriving Mikolov et al.'s negative-sampling word-embedding method[J].Eprint Arxiv,2014.
[12]Rong X.word2vec Parameter Learning Explained[J].Computer Science,2014.
[13]比达网.2016年第2季度中国第三方餐饮外卖市场研究报告[OL].http://www.bigdata-research.cn/content/201608/312.html,20160803.