论文部分内容阅读
随着互联网的发展,综合性旅游网站逐渐兴起,为人们提供交通出行、酒店住宿、游玩攻略等各种信息。同时,随着生活水平的提高和经济的快速发展,人们出行的频率也越来越高,有的是旅游出行,有的是商务出行。旅游网站在人们出行前为人们提供了参考信息,而这也是让出行的人们进行信息反馈的平台。现在,越来越多的人愿意在网络上发表评论来分享商品信息和体验感受,这有助于评论浏览者进行更好的选择决策,更有助于网络平台的建设和商家对自身服务水平或商品质量的改进。在大数据时代,数据量越来越庞大,数据积累的速度越来越快。当面对大量评论,而时间和精力又不允许浏览所有评论时,评论有用性成为帮助浏览者快速获取有效信息的重要助力。通过对评论有用性的影响因素分析,旅游网站可以有选择性地向浏览者推送评论或为浏览者提供对重要影响因素的选择功能,满足不同浏览者的信息需求,同时提高他们的信息获取效率,进而获得浏览者对旅游网站的信任和青睐。而商家则可根据有用性评论反馈的信息,进行自我改善。本文着眼于在线评论和酒店行业,主要研究在线酒店评论有用性的影响因素。TripAdvisor是全球领先的旅游网站,提供来自全球旅游者的点评和建议,因此本文利用Python爬取了自2016年1月1日至2018年8月10日,来自11个城市,96个酒店的25651条简体中文评论作为研究数据。首先,对原始数据进行预处理,通过语言甄别、无效评论筛选、时间转化、分词、删除停用词等步骤后,获得24426条有效评论。接着,从多个角度进行描述性统计分析,包括对历史评论数、历史有用投票数、旅行者类型等变量的频数分析,月度评论有用投票总数和月度评论总数的对比分析、词云分析等。然后,计算多元回归模型的多个变量值。对于被解释变量,采用基于Word2Vec方法的加权相似度算法计算评论有用性得分。对于解释变量,将所有影响因素分为三类:评论者特征、评论定量特征和评论定性特征。评论者特征包括历史评论数、历史有用投票数和评论者类型。评论定量特征包括评论时间和评论长度。评论定性特征包括语义得分、情感得分和是否有照片。对于语义得分,采用基于TF-IDF方法的LDA模型对评论文本进行主题分析获得;对于情感得分,采用朴素贝叶斯、逻辑回归、随机森林、K近邻和支持向量机五种机器学习方法进行情感分析获得。为进行机器学习的训练,人工标注2485条评论的情感标签,并采用五折交叉验证方法根据AUC值和精确度指标调整参数,获得最优预测模型。最后,建立关于评论有用性的多元线性回归模型,进行影响因素分析。结果显示:语义分析发现人们依次较关注酒店的房间条件、餐食供应水平、行政酒廊的服务、入住退房效率、会员权益及酒店地理位置和交通便利程度;情感分析发现朴素贝叶斯、逻辑回归和支持向量机优于K近邻和随机森林,采用前三种学习器进行预测,获得正面评论20186条、负面评论1755条;评论有用性分析发现评论者类型、评论时间、是否有照片、情感负面程度、评论语义对评论有用性存在显著正影响,评论长度与评论有用性呈倒“U”型关系,且影响显著,历史评论数、历史有用性投票数、情感偏离度不存在显著影响。综上所述,本文对TripAdvisor网站和酒店提出如下建议:建议网站参考评论者信誉、历史有用投票数及本条评论的有用投票数,推送优质评论者的评论或优质评论;建议网站加强信息种类自主选择功能,使浏览者可根据评论长度、评论关键字和是否有照片进行选择性浏览;建议网站优化手机端页面结构,兼顾信息容量和视觉感知;建议酒店关注评论照片,提升细节品质;把控服务质量,重客人之重。本文创新之处在于利用基于Word2Vec的加权相似度算法根据有用评论计算未被评价有用性的评论的有用程度,并以有用投票数为权重;考虑了旅行者类型对评论有用性的影响。不足在于缺乏适用于酒店行业的分词词库,虽然对分词词库进行了自主补充,但分词情况仍未达到最佳效果;语义分析中考虑了词频权重,却在近义词的辨析和替代上存在不足。随着未来科学家们对评论文本的技术分析能力的发展,相信会有更好的方法来解决以上问题。