基于情感分析技术的苏州旅游网络评价研究

来源 :科教创新与实践 | 被引量 : 0次 | 上传用户:zfgzfgzfg
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
  摘要:本文探讨了在利用大数据技术爬取苏州市主要景区和酒店网络评价的基础上,研究了采用情感分析技术对这些评价进行处理和分析的步骤和方法,得到了相对客观的评价,且评价具有可比较性。
  关键词:情感分析技术;网络;评价
  一、背景和意義
  在移动支付技术飞速发展的现代社会,网络的触角已经深入到我们生活,不断改变着我们的生活方式。通过网络使人与人之间联系的距离极大的缩短,即使是两个陌生人也能通过网络建立直接的联系。人们在公共网络上发表的各种言论可以被任何人获知,并产生一定的影响。游客们也可以通过在线旅游网站发表自己对所游览景区或酒店的相关体验和评论,这些公布在在线旅游网站上的评论就会对所有关注此景区或酒店的游客的旅游决策产生影响。对于景区或酒店正面赞扬的评论会增强计划前往游客的信心,吸引未计划游客的兴趣,对景区或酒店负面批评的评论会打击计划前往游客的积极性,降低游客的兴趣。
  近年来,由于越来越多的在线旅游用户乐于在互联网上分享自己的游玩体验,导致景区或酒店网络评论信息数量急剧增长,已经难以靠人工判断对景区或酒店网络评论进行分析。因此迫切需要利用计算机帮助在线旅游网站及景区管理者来快速准确的获取相关网络评论中的所需信息。因此,关于苏州旅游网络评价有以下重要意义:一、为游客的计划出行提供参考,从而优化出行决策;二、对于景区或酒店管理者而言,通过研究网络评论数据对景区或酒店进行综合评价,可以使管理者更直观更快捷的了解目前主要优势,以及可能存在问题的劣势,便于管理者及时调整景区或酒店治理和发展工作;三、对于在线旅游网站而言,研究网络评论数据对景区或酒店进行综合评价,了解目前的优势劣势,可以协助产品部门及时调整在线旅游产品的设计,突出宣传优势,或者针对劣势设计弥补性产品;四、对于政府部门而言,研究网络评论数据对政府的管理决策提供依据,有利于政策的调整和优化。还可以实现对苏州旅游网络舆情监测,为全面掌握舆论动态,做出正确舆论引导,提供分析依据。
  二、研究思路
  目前,对苏州旅游网络评价的研究还较为缺乏。尤其是官方层面未发布过苏州市主要景区和酒店网络评价报告。由于缺少官方的报告,各方面均缺少权威的指引。对苏州市主要景区和酒店网络评价将有利于优化旅游资源,对提升旅游质量和城市魅力有着重要的意义。
  本文立足于网络评论文本分析技术中的情感分析技术,对苏州市主要景区和酒店网络评价进行研究分析,目的在于提取出游客所关注的景区或酒店的特征和游客对该特征的情感态度,为旅游景区或酒店、在线旅游网站及在线旅游用户提供协助,优化其决策行为,更为政府部门决策提供参考依据。
  三、数据采集与整理
  本研究选取了苏州市主要的3A级以上景区41个,3星级以上酒店49个作为研究对象。利用大数据技术从携程网、同程旅游网、去哪儿网、马蜂窝网、驴妈妈网、途牛网等6个主要的OTA网站,主要爬取了2019年以来的网络评价。景区类供爬取到包含当中的文化底蕴、建议游玩时间、如何快捷取票等评论1521条、酒店类共爬取到包含有所处位置、环境、停车、房间的安全设施、以及早餐的是否丰盛等评论2533条。经过清洗处理,最终景区类采用有效评论1022条、酒店类采用有效评论2415条作为基础数据样本。
  四、数据处理与评分
  情感评分,也就是计算文本所表达的情感倾向的强烈程度。传统上计算情感评分的方法是词典法,是首先以人工的方式得出词组的情感倾向,然后对句子进行语法和语义的分析,然后根据语法规则来计算各词组的情感倾向,最后按不同语句的语义规则导出最终的情感分。考虑到词典法的缺点,所以我们最终采取的是目前较为流行的深度学习法。该方法的一般步骤包括:人工定性、特征提取、计算分类模型(以上三个步骤为模型训练)、用分类模型对新的评价文本进行分类、分类模型计算出的该文本和类的吻合度就是结果评分(以上两个步骤为模型应用)。这种方法不再需要考虑句子的语法、语义等规则,而是通过计算各词组以及不同词组之间同时出现的概率和人工定性之间的匹配度。即以不同的词组和词组之间同时出现的现象为特征将文本分类到好、坏之类的定性评价中。
  根据上述一般性步骤,结合我们的实际需要,清洗后的数据,会进行如下的处理:
  1.人工标记
  人工标记的目的是通过对收集到的评论通过人的判断分成好坏两个基本分类。考虑到我们的评分用途,对每个评价,我们分别从八个主题进行了标记。分别是:总体评价、游玩体验、环境、性价比、餐饮、购票便捷、设施、交通。如果某个评价未涉及到相关的主题则可不标记。然后将标记后的每个主题中的相关评价,标记为“好”的评价放入pos.txt文件中,标记为“不好”的评价放入neg.txt文件中。
  2.分词
  标记后的训练样本,以及用训练好的模型对新的评论进行评分时,都首先要对评论文本进行分词。这是由于我们的模型找的是词组以及词组同时出现的概率和人工标记之间的关系。而众所周知,中文不是英语,有自然的词汇分隔符,所以对于中文句子,首先要做的就是将其切分为词汇。IT的精髓就是不要重复发明轮子,所以我们直接采用了目前公认较为准确的jieba中文分词包进行分词。
  3.训练模型
  训练模型,其实就是采取不同的分类算法来计算不同词汇和人工结果直接的分类强度。一般采取的分类技术包括:朴素贝叶斯分类、SVM(支持向量机)分类等,考虑到贝叶斯模型具有较强的直观性,计算也比较方便,所以我们采取了贝叶斯分类算法来进行模型的训练。
  针对每个主题分别用pos.txt和neg.txt文件以贝叶斯分类模型进行计算,和分词类似,我们直接选择了snownlp这一针对中文情感词分类训练程序包进行分类模型的生成。然后将生成的该主题的分类模型放入model目录下集中存放。   4.情感评分
  我们选择某个景点,然后将收集到的对其的所有评价逐条用训练好的这八个模型进行评分,然后按主题将评分结果进行汇总。由于评价中可能未涉及到相关主题,所以我们对低于特定门限的评分视为无效评分,加以剔除,由于目前评价数量较少,所以我们将这一门限设得较高,为:0.1。
  最后计算出来的平均分,就是按不同主题的情感评分。需要注意的是,由于目前我们收集到的评论数量较少,所以在针对游玩体验、餐饮、设施、交通等评论较少的主题时,评分结果的准确度较差,后期正式实施扩大时间范围和采集范围增加评论后准确度会提升。
  此外,由于大多数情况下,游客不会游完必评,所以我们收集到的评论在普遍性和客观性方面是存在偏差的,所以我们开始还设置了一个可信度的主题以试图对评论本身的可信性加以纠正,但由于最终被定性为不可信的评论数量过少,所以目前无法对此进行纠正。后期正式实施能实现纠正此问题。
  5.评价定性
  考虑到计算出的情感评分没有直观性,为便于对评价的打分结果有直观感受,我们还对评价的评分进行了定性计算。我们将评价结果视为一个模糊集,该模糊集包含三个模糊性质,其隶属函数用折线法进行表示:
  依据该模糊集的隶属度函数,对计算出来的评分,我们分别计算该评分分别对应这三个模糊性质的隶属度值,取其隶属度最大的为该值所对应的模糊性质。
  以苏州市拙政园为例,通过程序运算可以看出对于拙政园的网络评价,在总体评价、环境、游玩体验方面为“好”,在性价比、餐饮、购票便捷、设施、交通方面为“不好”。后期可以结合以上结果再具体分析评论发现反映的具体问题。
  五、结论与展望
  将网络评价通过人工标记、训练模型、情感评分、评价定性等程序加工后,得到了相对客观的评价,且评价具有可比较性。因为对不同的主题进行了标记,有利于发现存在问题的方面或者游客满意度不高的方面,从而构建全面客观的评价指标体系。总之,对苏州旅游网络评价分析技术上是完全可行的。主要展望是:一、考虑针对不同的评价对象类别有针对性地完善主题标记,从而实现全面客观的评价;二、目前数据量偏少,可以扩大收集评论的时间范围、扩大收集评论的网站范围,增加评论数量,提升结果的准确度;三、基于以上评价分析方法和流程,可以实现景区与景区之间的评价分析比较、酒店与酒店之间的评价分析比较、跨地区同一类型评价对象之间的评价分析比较;四、可以实现对苏州旅游网络舆情监测,形成简报、报告、图表等分析结果,为全面掌握舆论动态,做出正确舆论引导,提供分析依据。
  参考文献:
  [1] 张志雄、费理源、廖宇. 基于蚁群算法的苏州古城徒步旅游线路规划[J].看世界,2020(21)
  [2] 陶洁.文本挖掘领域研究现状与趋势分析[J]. 武漢船舶职业技术学院学报. 2018(02)
  基金项目:2021年度苏州经贸职业技术学院院级课题“基于大数据的情感分析技术在苏州旅游网络评价中的应用研究”,项目编号为701K703。2021年江苏省高等学校大学生创新创业训练计划项目“基于大数据的情感分析法在苏州旅游网络评价中的应用研究” 。
其他文献
摘要:关于开展吴让之(1799—1870)的篆刻研究,首先涉及到的就是对于其存世篆刻作品的甄别问题。甄别一般分为两个方面,第一是伪作的甄别,第二是代刀作品甄别。这二者大多都与吴让之在某一时间段的真实作品风格存在一些差异,所以可以进行相应的判断。对于吴让之篆刻作品真伪问题的甄别,学术界早有关注,而对于其代刀现象的研究却没能引起重视。因此,笔者将试图通过对吴让之的疑似代刀作品进行挖掘与比较研究,对这类
期刊
摘要:泛函回声状态网络(Functional Echo State Network,FESN)能够对时间序列分类问题,具有分类效果好的优势。基于实时监测的结构状态分析问题,是典型的多变量、大数据集的时间序列分类问题,于是本文将泛函回声状态网络扩展至结构状态分析领域。利用Bookshelf框架模型试验,验证了FESN方法在结构损伤识别准确率方面的优势。  关键词:泛函回声状态网络;时间序列;遗传算法
期刊
摘要:基于以往的工作经验可以了解到,在对工件进行自动化加工时,涉及多道作业工序。而且在生产线应用企业,需要用到的装置有数控车床、机器人、原料仓以及输送机构等。在具体的生产过程中,每道工序处都会安排一台工业机器人,在工作中,机器人会从原料库或流水线上将待加工件转移到车床上,经过多道工序处理后,得到所需工件。完成制作的工件还需要进行质量校核,满足要求后才可以作为成品移送到成品库中进行保存。本文对人工智
期刊
摘要:滨水区作为城市中人类活动的固定地带,是一个特定的空间,它和人类生活环境之间是相互共通,相互影响的,所以城市滨水景观的设计是一个重点,在对滨水景观的设计中,对人的心理需求也要有具体的分析,不同人、不同年龄段、不同身份层次对同一景观产生的心理体验都各不相同,因此,在对城市滨水景观设计时,首先要根据人的心理需求做出分析,然后根据人的心理需求采取相应的设计方案。  关键词:城市滨水景观;特征;心理需
期刊
摘要:在我国近年来科学技术的发展过程中,人工智能得到了更多人的关注。无论人们的生活中还是工作中,越来越多的人工智能得到应用。随着电子信息技术被广泛应用,人工智能模式也被应用到电子信息技术中。同时,人工智能技术在发展的过程中逐渐将自身的价值体现出来,也为电子信息技术的未来发展奠定了良好的基础。  关键词:电子信息工程;通信智能;应用  引言  同其他通信技术相比较,电子信息工程技术的传输速度快、传输
期刊
摘要:科技的系统性进步催生了以互联网科技为代表的技术进步盛况。伴随计算机网络技术的急速发展,人工智能技术开始得到重视并取得了一定的发展成就。计算机网络技术成为人类社会的重要组成部分,人工智能技术的应用前景也趋向于广泛。文章介绍人工智能的概念,探析人工智能技术在计算机网络技术中的应用优点与具体应用,希望能够从计算机网络技术的角度推动人工智能的发展。  关键词:人工智能;计算机网络技术;技术应用优点;
期刊
摘要:当今时代,数字化媒体技术的迅猛发展正为场馆数字化导览导引系统设计带来活力,越来越多的数字媒体技术被广泛地运用于场馆导览导引系统设计中,通过数字全息技术的融入、数字智能播控平台实现聚合,从对功能的满足进一步上升到对人的精神关怀,打破空间局限和时间界限与观众互动,并能进行科学引导,在当代博物馆中提供规范服务,帮助全面建设起国际化、人性化、智能化的场馆导览导引系统设计。  关键词:全景化虚拟空间;
期刊
摘要:我国的城市化进程步入新的发展时期,经济实力迅速提升,各个领域的新技术如雨后春笋不断涌现,云计算与物联网技术是其中具有代表性的两项技术。这些新技术目前已经在生产活动和日常生活中得到广泛的应用,让生产生活变得更加高效和便捷。因此对于这些具有极大价值的新技术进行不断的探索和革新是非常有必要的,通过寻求更科学合理的方法推动技术融合,使物联网技术得到更加多元化的发展。  关键词:云计算;物联网技术;研
期刊
摘要:当前,由于我国城市化步伐的推进,使城市建设期间对于土地资源的需求量不断增加,但实际上能够有效利用的土地资源却越来越少。而对于农村贫困地区而言,越来越多的农民开始进城务工,田地撂荒现象明显加剧,土地资源闲置等问题日益凸显。如何有效化解当前土地资源合理利用过程中产生的这种矛盾,充分利用和保护土地资源是促进我国整体发展和建设的关键所在。本文也将在此基础上进行分析和探讨。  关键词:土地资源管理;问
期刊
摘要:人力资源管理简单来说就是对企业人才进行全方位的管理,包括企业招聘计划,人才招聘与归置、人才培养与绩效管理等,人力资源对于企业发展的重要性不言而喻,已然成为当今社会企业最要紧的资源,是企业核心竞争力的体现。而随着时代发展,信息化建设也在企业中越来越深入且广泛,推动人力资源管理信息化,其能够让人力资源管理更加高效,意义重大。  关键词:人力资源管理;信息化应用  引言:  社会的竞争在不断加剧,
期刊