论文部分内容阅读
摘要:本文探讨了在利用大数据技术爬取苏州市主要景区和酒店网络评价的基础上,研究了采用情感分析技术对这些评价进行处理和分析的步骤和方法,得到了相对客观的评价,且评价具有可比较性。
关键词:情感分析技术;网络;评价
一、背景和意義
在移动支付技术飞速发展的现代社会,网络的触角已经深入到我们生活,不断改变着我们的生活方式。通过网络使人与人之间联系的距离极大的缩短,即使是两个陌生人也能通过网络建立直接的联系。人们在公共网络上发表的各种言论可以被任何人获知,并产生一定的影响。游客们也可以通过在线旅游网站发表自己对所游览景区或酒店的相关体验和评论,这些公布在在线旅游网站上的评论就会对所有关注此景区或酒店的游客的旅游决策产生影响。对于景区或酒店正面赞扬的评论会增强计划前往游客的信心,吸引未计划游客的兴趣,对景区或酒店负面批评的评论会打击计划前往游客的积极性,降低游客的兴趣。
近年来,由于越来越多的在线旅游用户乐于在互联网上分享自己的游玩体验,导致景区或酒店网络评论信息数量急剧增长,已经难以靠人工判断对景区或酒店网络评论进行分析。因此迫切需要利用计算机帮助在线旅游网站及景区管理者来快速准确的获取相关网络评论中的所需信息。因此,关于苏州旅游网络评价有以下重要意义:一、为游客的计划出行提供参考,从而优化出行决策;二、对于景区或酒店管理者而言,通过研究网络评论数据对景区或酒店进行综合评价,可以使管理者更直观更快捷的了解目前主要优势,以及可能存在问题的劣势,便于管理者及时调整景区或酒店治理和发展工作;三、对于在线旅游网站而言,研究网络评论数据对景区或酒店进行综合评价,了解目前的优势劣势,可以协助产品部门及时调整在线旅游产品的设计,突出宣传优势,或者针对劣势设计弥补性产品;四、对于政府部门而言,研究网络评论数据对政府的管理决策提供依据,有利于政策的调整和优化。还可以实现对苏州旅游网络舆情监测,为全面掌握舆论动态,做出正确舆论引导,提供分析依据。
二、研究思路
目前,对苏州旅游网络评价的研究还较为缺乏。尤其是官方层面未发布过苏州市主要景区和酒店网络评价报告。由于缺少官方的报告,各方面均缺少权威的指引。对苏州市主要景区和酒店网络评价将有利于优化旅游资源,对提升旅游质量和城市魅力有着重要的意义。
本文立足于网络评论文本分析技术中的情感分析技术,对苏州市主要景区和酒店网络评价进行研究分析,目的在于提取出游客所关注的景区或酒店的特征和游客对该特征的情感态度,为旅游景区或酒店、在线旅游网站及在线旅游用户提供协助,优化其决策行为,更为政府部门决策提供参考依据。
三、数据采集与整理
本研究选取了苏州市主要的3A级以上景区41个,3星级以上酒店49个作为研究对象。利用大数据技术从携程网、同程旅游网、去哪儿网、马蜂窝网、驴妈妈网、途牛网等6个主要的OTA网站,主要爬取了2019年以来的网络评价。景区类供爬取到包含当中的文化底蕴、建议游玩时间、如何快捷取票等评论1521条、酒店类共爬取到包含有所处位置、环境、停车、房间的安全设施、以及早餐的是否丰盛等评论2533条。经过清洗处理,最终景区类采用有效评论1022条、酒店类采用有效评论2415条作为基础数据样本。
四、数据处理与评分
情感评分,也就是计算文本所表达的情感倾向的强烈程度。传统上计算情感评分的方法是词典法,是首先以人工的方式得出词组的情感倾向,然后对句子进行语法和语义的分析,然后根据语法规则来计算各词组的情感倾向,最后按不同语句的语义规则导出最终的情感分。考虑到词典法的缺点,所以我们最终采取的是目前较为流行的深度学习法。该方法的一般步骤包括:人工定性、特征提取、计算分类模型(以上三个步骤为模型训练)、用分类模型对新的评价文本进行分类、分类模型计算出的该文本和类的吻合度就是结果评分(以上两个步骤为模型应用)。这种方法不再需要考虑句子的语法、语义等规则,而是通过计算各词组以及不同词组之间同时出现的概率和人工定性之间的匹配度。即以不同的词组和词组之间同时出现的现象为特征将文本分类到好、坏之类的定性评价中。
根据上述一般性步骤,结合我们的实际需要,清洗后的数据,会进行如下的处理:
1.人工标记
人工标记的目的是通过对收集到的评论通过人的判断分成好坏两个基本分类。考虑到我们的评分用途,对每个评价,我们分别从八个主题进行了标记。分别是:总体评价、游玩体验、环境、性价比、餐饮、购票便捷、设施、交通。如果某个评价未涉及到相关的主题则可不标记。然后将标记后的每个主题中的相关评价,标记为“好”的评价放入pos.txt文件中,标记为“不好”的评价放入neg.txt文件中。
2.分词
标记后的训练样本,以及用训练好的模型对新的评论进行评分时,都首先要对评论文本进行分词。这是由于我们的模型找的是词组以及词组同时出现的概率和人工标记之间的关系。而众所周知,中文不是英语,有自然的词汇分隔符,所以对于中文句子,首先要做的就是将其切分为词汇。IT的精髓就是不要重复发明轮子,所以我们直接采用了目前公认较为准确的jieba中文分词包进行分词。
3.训练模型
训练模型,其实就是采取不同的分类算法来计算不同词汇和人工结果直接的分类强度。一般采取的分类技术包括:朴素贝叶斯分类、SVM(支持向量机)分类等,考虑到贝叶斯模型具有较强的直观性,计算也比较方便,所以我们采取了贝叶斯分类算法来进行模型的训练。
针对每个主题分别用pos.txt和neg.txt文件以贝叶斯分类模型进行计算,和分词类似,我们直接选择了snownlp这一针对中文情感词分类训练程序包进行分类模型的生成。然后将生成的该主题的分类模型放入model目录下集中存放。 4.情感评分
我们选择某个景点,然后将收集到的对其的所有评价逐条用训练好的这八个模型进行评分,然后按主题将评分结果进行汇总。由于评价中可能未涉及到相关主题,所以我们对低于特定门限的评分视为无效评分,加以剔除,由于目前评价数量较少,所以我们将这一门限设得较高,为:0.1。
最后计算出来的平均分,就是按不同主题的情感评分。需要注意的是,由于目前我们收集到的评论数量较少,所以在针对游玩体验、餐饮、设施、交通等评论较少的主题时,评分结果的准确度较差,后期正式实施扩大时间范围和采集范围增加评论后准确度会提升。
此外,由于大多数情况下,游客不会游完必评,所以我们收集到的评论在普遍性和客观性方面是存在偏差的,所以我们开始还设置了一个可信度的主题以试图对评论本身的可信性加以纠正,但由于最终被定性为不可信的评论数量过少,所以目前无法对此进行纠正。后期正式实施能实现纠正此问题。
5.评价定性
考虑到计算出的情感评分没有直观性,为便于对评价的打分结果有直观感受,我们还对评价的评分进行了定性计算。我们将评价结果视为一个模糊集,该模糊集包含三个模糊性质,其隶属函数用折线法进行表示:
依据该模糊集的隶属度函数,对计算出来的评分,我们分别计算该评分分别对应这三个模糊性质的隶属度值,取其隶属度最大的为该值所对应的模糊性质。
以苏州市拙政园为例,通过程序运算可以看出对于拙政园的网络评价,在总体评价、环境、游玩体验方面为“好”,在性价比、餐饮、购票便捷、设施、交通方面为“不好”。后期可以结合以上结果再具体分析评论发现反映的具体问题。
五、结论与展望
将网络评价通过人工标记、训练模型、情感评分、评价定性等程序加工后,得到了相对客观的评价,且评价具有可比较性。因为对不同的主题进行了标记,有利于发现存在问题的方面或者游客满意度不高的方面,从而构建全面客观的评价指标体系。总之,对苏州旅游网络评价分析技术上是完全可行的。主要展望是:一、考虑针对不同的评价对象类别有针对性地完善主题标记,从而实现全面客观的评价;二、目前数据量偏少,可以扩大收集评论的时间范围、扩大收集评论的网站范围,增加评论数量,提升结果的准确度;三、基于以上评价分析方法和流程,可以实现景区与景区之间的评价分析比较、酒店与酒店之间的评价分析比较、跨地区同一类型评价对象之间的评价分析比较;四、可以实现对苏州旅游网络舆情监测,形成简报、报告、图表等分析结果,为全面掌握舆论动态,做出正确舆论引导,提供分析依据。
参考文献:
[1] 张志雄、费理源、廖宇. 基于蚁群算法的苏州古城徒步旅游线路规划[J].看世界,2020(21)
[2] 陶洁.文本挖掘领域研究现状与趋势分析[J]. 武漢船舶职业技术学院学报. 2018(02)
基金项目:2021年度苏州经贸职业技术学院院级课题“基于大数据的情感分析技术在苏州旅游网络评价中的应用研究”,项目编号为701K703。2021年江苏省高等学校大学生创新创业训练计划项目“基于大数据的情感分析法在苏州旅游网络评价中的应用研究” 。
关键词:情感分析技术;网络;评价
一、背景和意義
在移动支付技术飞速发展的现代社会,网络的触角已经深入到我们生活,不断改变着我们的生活方式。通过网络使人与人之间联系的距离极大的缩短,即使是两个陌生人也能通过网络建立直接的联系。人们在公共网络上发表的各种言论可以被任何人获知,并产生一定的影响。游客们也可以通过在线旅游网站发表自己对所游览景区或酒店的相关体验和评论,这些公布在在线旅游网站上的评论就会对所有关注此景区或酒店的游客的旅游决策产生影响。对于景区或酒店正面赞扬的评论会增强计划前往游客的信心,吸引未计划游客的兴趣,对景区或酒店负面批评的评论会打击计划前往游客的积极性,降低游客的兴趣。
近年来,由于越来越多的在线旅游用户乐于在互联网上分享自己的游玩体验,导致景区或酒店网络评论信息数量急剧增长,已经难以靠人工判断对景区或酒店网络评论进行分析。因此迫切需要利用计算机帮助在线旅游网站及景区管理者来快速准确的获取相关网络评论中的所需信息。因此,关于苏州旅游网络评价有以下重要意义:一、为游客的计划出行提供参考,从而优化出行决策;二、对于景区或酒店管理者而言,通过研究网络评论数据对景区或酒店进行综合评价,可以使管理者更直观更快捷的了解目前主要优势,以及可能存在问题的劣势,便于管理者及时调整景区或酒店治理和发展工作;三、对于在线旅游网站而言,研究网络评论数据对景区或酒店进行综合评价,了解目前的优势劣势,可以协助产品部门及时调整在线旅游产品的设计,突出宣传优势,或者针对劣势设计弥补性产品;四、对于政府部门而言,研究网络评论数据对政府的管理决策提供依据,有利于政策的调整和优化。还可以实现对苏州旅游网络舆情监测,为全面掌握舆论动态,做出正确舆论引导,提供分析依据。
二、研究思路
目前,对苏州旅游网络评价的研究还较为缺乏。尤其是官方层面未发布过苏州市主要景区和酒店网络评价报告。由于缺少官方的报告,各方面均缺少权威的指引。对苏州市主要景区和酒店网络评价将有利于优化旅游资源,对提升旅游质量和城市魅力有着重要的意义。
本文立足于网络评论文本分析技术中的情感分析技术,对苏州市主要景区和酒店网络评价进行研究分析,目的在于提取出游客所关注的景区或酒店的特征和游客对该特征的情感态度,为旅游景区或酒店、在线旅游网站及在线旅游用户提供协助,优化其决策行为,更为政府部门决策提供参考依据。
三、数据采集与整理
本研究选取了苏州市主要的3A级以上景区41个,3星级以上酒店49个作为研究对象。利用大数据技术从携程网、同程旅游网、去哪儿网、马蜂窝网、驴妈妈网、途牛网等6个主要的OTA网站,主要爬取了2019年以来的网络评价。景区类供爬取到包含当中的文化底蕴、建议游玩时间、如何快捷取票等评论1521条、酒店类共爬取到包含有所处位置、环境、停车、房间的安全设施、以及早餐的是否丰盛等评论2533条。经过清洗处理,最终景区类采用有效评论1022条、酒店类采用有效评论2415条作为基础数据样本。
四、数据处理与评分
情感评分,也就是计算文本所表达的情感倾向的强烈程度。传统上计算情感评分的方法是词典法,是首先以人工的方式得出词组的情感倾向,然后对句子进行语法和语义的分析,然后根据语法规则来计算各词组的情感倾向,最后按不同语句的语义规则导出最终的情感分。考虑到词典法的缺点,所以我们最终采取的是目前较为流行的深度学习法。该方法的一般步骤包括:人工定性、特征提取、计算分类模型(以上三个步骤为模型训练)、用分类模型对新的评价文本进行分类、分类模型计算出的该文本和类的吻合度就是结果评分(以上两个步骤为模型应用)。这种方法不再需要考虑句子的语法、语义等规则,而是通过计算各词组以及不同词组之间同时出现的概率和人工定性之间的匹配度。即以不同的词组和词组之间同时出现的现象为特征将文本分类到好、坏之类的定性评价中。
根据上述一般性步骤,结合我们的实际需要,清洗后的数据,会进行如下的处理:
1.人工标记
人工标记的目的是通过对收集到的评论通过人的判断分成好坏两个基本分类。考虑到我们的评分用途,对每个评价,我们分别从八个主题进行了标记。分别是:总体评价、游玩体验、环境、性价比、餐饮、购票便捷、设施、交通。如果某个评价未涉及到相关的主题则可不标记。然后将标记后的每个主题中的相关评价,标记为“好”的评价放入pos.txt文件中,标记为“不好”的评价放入neg.txt文件中。
2.分词
标记后的训练样本,以及用训练好的模型对新的评论进行评分时,都首先要对评论文本进行分词。这是由于我们的模型找的是词组以及词组同时出现的概率和人工标记之间的关系。而众所周知,中文不是英语,有自然的词汇分隔符,所以对于中文句子,首先要做的就是将其切分为词汇。IT的精髓就是不要重复发明轮子,所以我们直接采用了目前公认较为准确的jieba中文分词包进行分词。
3.训练模型
训练模型,其实就是采取不同的分类算法来计算不同词汇和人工结果直接的分类强度。一般采取的分类技术包括:朴素贝叶斯分类、SVM(支持向量机)分类等,考虑到贝叶斯模型具有较强的直观性,计算也比较方便,所以我们采取了贝叶斯分类算法来进行模型的训练。
针对每个主题分别用pos.txt和neg.txt文件以贝叶斯分类模型进行计算,和分词类似,我们直接选择了snownlp这一针对中文情感词分类训练程序包进行分类模型的生成。然后将生成的该主题的分类模型放入model目录下集中存放。 4.情感评分
我们选择某个景点,然后将收集到的对其的所有评价逐条用训练好的这八个模型进行评分,然后按主题将评分结果进行汇总。由于评价中可能未涉及到相关主题,所以我们对低于特定门限的评分视为无效评分,加以剔除,由于目前评价数量较少,所以我们将这一门限设得较高,为:0.1。
最后计算出来的平均分,就是按不同主题的情感评分。需要注意的是,由于目前我们收集到的评论数量较少,所以在针对游玩体验、餐饮、设施、交通等评论较少的主题时,评分结果的准确度较差,后期正式实施扩大时间范围和采集范围增加评论后准确度会提升。
此外,由于大多数情况下,游客不会游完必评,所以我们收集到的评论在普遍性和客观性方面是存在偏差的,所以我们开始还设置了一个可信度的主题以试图对评论本身的可信性加以纠正,但由于最终被定性为不可信的评论数量过少,所以目前无法对此进行纠正。后期正式实施能实现纠正此问题。
5.评价定性
考虑到计算出的情感评分没有直观性,为便于对评价的打分结果有直观感受,我们还对评价的评分进行了定性计算。我们将评价结果视为一个模糊集,该模糊集包含三个模糊性质,其隶属函数用折线法进行表示:
依据该模糊集的隶属度函数,对计算出来的评分,我们分别计算该评分分别对应这三个模糊性质的隶属度值,取其隶属度最大的为该值所对应的模糊性质。
以苏州市拙政园为例,通过程序运算可以看出对于拙政园的网络评价,在总体评价、环境、游玩体验方面为“好”,在性价比、餐饮、购票便捷、设施、交通方面为“不好”。后期可以结合以上结果再具体分析评论发现反映的具体问题。
五、结论与展望
将网络评价通过人工标记、训练模型、情感评分、评价定性等程序加工后,得到了相对客观的评价,且评价具有可比较性。因为对不同的主题进行了标记,有利于发现存在问题的方面或者游客满意度不高的方面,从而构建全面客观的评价指标体系。总之,对苏州旅游网络评价分析技术上是完全可行的。主要展望是:一、考虑针对不同的评价对象类别有针对性地完善主题标记,从而实现全面客观的评价;二、目前数据量偏少,可以扩大收集评论的时间范围、扩大收集评论的网站范围,增加评论数量,提升结果的准确度;三、基于以上评价分析方法和流程,可以实现景区与景区之间的评价分析比较、酒店与酒店之间的评价分析比较、跨地区同一类型评价对象之间的评价分析比较;四、可以实现对苏州旅游网络舆情监测,形成简报、报告、图表等分析结果,为全面掌握舆论动态,做出正确舆论引导,提供分析依据。
参考文献:
[1] 张志雄、费理源、廖宇. 基于蚁群算法的苏州古城徒步旅游线路规划[J].看世界,2020(21)
[2] 陶洁.文本挖掘领域研究现状与趋势分析[J]. 武漢船舶职业技术学院学报. 2018(02)
基金项目:2021年度苏州经贸职业技术学院院级课题“基于大数据的情感分析技术在苏州旅游网络评价中的应用研究”,项目编号为701K703。2021年江苏省高等学校大学生创新创业训练计划项目“基于大数据的情感分析法在苏州旅游网络评价中的应用研究” 。