基于方面的双重传播和模糊语言对冲酒店评论摘要研究

来源 :哈尔滨工业大学 | 被引量 : 0次 | 上传用户:cnmeim
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
一直以来,人们习惯于在对生活各方面问题做出决定之前询问家人,朋友或专家的意见,例如对研究的选择、购买的食物类型以及如何搭配着装等。随着互联网越来越易于访问以及社交网络的稳步增长,人们只需拿起电话就可以轻松获得解决问题的答案,并且短短几次之内,就可以得到一系列来于自世界各地的建议。人们可以找到许多拥有大量顾客评论的网站,在这些网站上用户就自身获得的服务或者购买产品做出评价,酒店领域也不例外。然而,这些信息扩散性极强且数量巨大,从中提取有用的信息或者对其进行快速分析存在很大的难度甚至是不可能完成的。当前已有相关方面的研究开发出了各种技术根据极性对评论进行分类分析,评论的极性可以分为三个方面,分别是:负面、正面以及中性。这种分类通常伴随着文本摘要出现,文本摘要就是将每个评论缩减为最为相关的术语,并且依据所使用的模型,给出好的结果。文本摘要和文档级别情感分析在许多领域均适用,但是对于酒店这类行业,这种评论分析技术还不足以为酒店经理提供更多关于评论的详细信息。本文设计了一个新的系统,该系统可以从每个评论中提取不同的相关特征方面,然后评估其情感。但是,由于系统生成的特征方面列表可能会一样长,并且完全混杂在一起,所以难以浏览。此外,评论者使用不同表述方式来表达相同的特征方面。针对这个问题,本文所设计的系统提出了根据被定义的组别对各个特征方面进行分类的解决方案,然后根据每一个组别概括其特征方面及其各自的情感。本研究设计的系统是一种无监督的基于语料库的方法,以酒店领域的双重传播为基础同步提取意见以及产品特征。为了从模糊和异质的句子中捕捉意见目标和情感,论文利用模糊逻辑建立了一个关于在线酒店评论细粒度的基于特征方面的情感分析(ABSA)。这项研究将以全新的方式让未来的客户和酒店经理受益。关于未来客户,本研究旨在通过对每位用户的评论进行分析来突显特定酒店的优势和劣势,这将有助于客户快速掌握其正在寻找的信息。而且,可以更好地理解以前的客户对其所提到的特征方面的看法,尽管文本的长度和每家酒店的评论数量都很高。此外,处理即使是少数的复杂(经常是相互矛盾的)评论也是一个难以理解的挑战。另一方面,本文系统可以帮助减少客户流失,客户流失最初是由于客户对酒店某些方面的不满以及对管理人员的不了解造成的,也是由于社交媒体对酒店特定方面的不良宣传所造成的。最终大概会有96%的不满意客户不会直接向公司投诉,所以酒店或服务上的问题(和排名)永远不会被管理人员注意到。事实上,不满意的客户可以在酒店预订网站上进行投诉,如果酒店经理能够发现其酒店的各个方面经常在公共论坛上以消极或积极的方式被讨论,就可以更好地解决这些问题并提高客户满意度,从而降低隐性成本,增加利润[1]。换句话说,研究的关键在于通过对每个用户的评论进行分析来突出特定酒店的优势和劣势。基于特征方面的情感分析一直是一项非常困难的任务,其主要包含以下几个核心子任务:特征/意见提取,极性分类和总结。虽然一些研究人员已经研究了每一个子任务的相关问题,但其算法需要额外的或外部的资源,因此仍需要被改进。此外,许多现有的方法并没有被应用于酒店业。(1)在进行句子分类的大量工作中,大部分研究通常将每个句子分为单个方面,而用户则可能会谈论到更多的方面。同时,根据定义的一组术语对特征方面进行分类需要大量时间以及用户的补充工作。另外,有些用户并没有搜索具体的特征方面,或许查询酒店之前的客人所谈论的不同特征方面也是一个不错的选择。(2)大部分工作不涉及从目标评论中提取隐含的特征方面。(3)很少有研究提出了对各特征方面进行分类的系统。人们用不同的词汇和表达来描述同一方面,应该有一种机制对类似的方面进行分类或分组。(4)监督机器学习的大问题是它需要一组带注释的复审句作为训练样例。(5)根据以前工作中确定的五点,本文决定采用双重传播和模糊逻辑来实现基于特征方面的情感分析。双重传播方法有助于同时提取方面和意见词。为了处理名词短语,动词意见和一些具体特征方面的提取,论文修改并添加了一些新的规则。随着模糊语意修改逻辑的实施,本研究考虑使用副词和修饰词(反向词)对每个特征方面进行细粒度分类。根据特征方面类别和极性进行特征方面概述,以便于快速访问任一特征方面并从所有评论中获得概述。本文建立了一个数据采集系统,利用该系统不仅可以提取评论,还可以提取关于用户(用户名,用户所在地)和酒店(酒店名称,酒店星级掠夺,酒店位置(城市))的信息以及评论发布时间。本研究还在Mongo上安装了一个数据库系统,可以导入和存储具有不同数据类型的大量信息,快速地访问以及轻松使用存储的数据。作为后续工作的基础,本研究工作的第一部分是提取兼备特征方面-意见的语意修改(AOLH)表。这个表格由特征方面-意见组和与这个观点(如果有的话)相关的不同的语意修改模型组成。提取阶段用双重传播方法处理,其规则和算法已被修改为能够提取AOLH的形式。提取AOLH之后,就进入到意见分类阶段。在这个阶段,论文应用考虑到语意修改的模糊函数。此函数将Senti Word Net给出的观点分数以及不同类型的语意修改作为参数。请注意,本研究中有3种类型语意修改,分别是:反向词,程度增强词以及程度减弱词。根据不同语意修改的类型,模糊函数的功能是存在变化的,从而允许计算意见时存在偏振。在这个阶段结束时,本文将每个特征方面归因于与之相关的意见的极性。系统的第三部分是特征方面分类。对于来自步骤2输出的每个特征方面-极性,研究汇总给定类别。特征方面分类是通过手动生成“特征方面——类别”语料库来完成的,其实际上是一个字典,为每个类别定义一个种子列表。在将来自步骤2的列表的每个特征方面以及语料库的种子向量化之后,本文计算每个特征方面与每个种子之间的相似性以确定特征方面所属的类别。系统的最后一部分是特征方面汇总,该步骤显示系统输出的结果。总结可以更加全面的了解本文所做工作,即按照其类别收集每个特征方面,并且针对每个特征方面呈现列表,显示出特征方面-极性组的出现频率。本文分别使用系统中已实现的包括不同功能和筛选的场景来评估每个阶段。在每个阶段,论文都呈现了实验进行的场景。在第一阶段,即特征方面-意见提取中,首先测试了第二章中描述的各种功能的影响,以提高系统的准确性。然后,第二次将本研究系统的提取与基于频率的提取进行了比较,本研究的系统以0.79的精度产生最佳输出。第二个阶段是模糊意见分类,其可以评估不同的修整功能。在定义不同的情景之后,本文分别评估每个情景的有效性,然后评估情景的组合。结果表明,情景组合比单独采取更有效,本文选择了呈现0.77准确度的情景。第三步也是最后一步是特征方面分类。为了评估这种方法,本文将其与机器学习方法进行比较,主要包括朴素贝叶斯,SGD和SVM三种方法。对比发现,本研究的方法给出的结果最佳,其次是SVM。论文的实验结果可以帮助酒店管理者提高客户满意度,具体可以归纳为以下几点:(1)本文的系统是突出酒店客人表达意见不同特征方面的绝佳工具。在本文的数据集中,房间(31%),酒店(22%),位置(21%),员工(12.6%)和早餐(12.4%)是最受关注的五个方面。(2)从最频繁的特征方面的极性分布结果来看,这些特征方面起到了主导作用。“房间”和“地点”的价值最高,“房间”中不满意用户的比例也最高。另一方面,“地点”的负面意见率很低。因此可以推断,必须付出相当大的努力才能为用户提供更适合其需求的房间。(3)第三点是非常重要的特征方面分类。酒店类别的比例最高(22.7%,其次是租金18%),服务比例为17.5%,房间为16.1%。在房间后,有12.5%的食物和饮料。最后两个分别是房间设施,其比例为11.4%,金钱价值,其比例为1.8%。特征方面分类使我们能够更好地评估出现的特征方面。没有分类之前,“房间”出现的频率最高,但是在分类之后是最常出现的是排在第四名的“位置”。归功于分类,还可以发现属于“房间设施”类别的方面也具有非常负面比情绪。而且,也许这个类别已经导致“房间”特征方面有很高的负值。尽管分析结果很有意义,但仍存在一些不足。首先,数据集的大小并不能确保对所有酒店的特征方面进行了分析,其他相关特征方面可能还没有被发现。其次,在特征方面-意见提取系统中,本文只考虑了针对词性“ADJ”(形容词)的意见,而且也仅考虑POS标签是“名词”的特征方面。这两个考虑使本文在提取过程中遗漏了一些特征方面-意见组。并且Senti Word Net在确定某些形容词的分数时考虑到形容词的上下文,给出了较低的分数,这致使本研究创建特定功能来调整分数的值。为了运用本研究并且改进研究目标,可以考虑对主观句子进行类似的分析,依据获得的结果,建立合作式酒店管理工具来帮助管理人员提高客户满意度。总而言之,这项研究已经证明,基于特征方面的情感分析(ASBA)是一种非常有效的工具,可以用于从酒店评论中提取顾客提出的相关特征方面以及给出地对这些特征方面的感受。这个工具对于任何一个酒店经理来说都是有价值的,不仅可以增加其营业额,而且能够更好地了解客户的需求。
其他文献
伴随城市化进程的加快和人民生活水平的提高,城市生活垃圾总量在不断攀升,“垃圾包围城市”已严重制约城市的可持续发展。从垃圾治理的先进国家经验可以看到,焚烧和填埋这些传统的处理方式已不是解决垃圾困境的最佳方式,垃圾分类处理才是解决垃圾问题的关键。2017年国务院办公厅部署推进生活垃圾分类工作,加快建立分类投放、分类收集、分类运输、分类处理的垃圾处理体系。为深入贯彻党的十九大精神、全面落实习近平总书记关
Plate方程源自Woinowsky-Krieger([1])和Berger([2])建立的弹性振动方程.最近几十年,确定性Plate方程解的长时间行为已经被许多学者研究.然而,在现实生活中,很多系统不可避免
超疏水材料由于其优异的斥水性能及其附带有的自清洁、防覆冰、防腐蚀、防酸碱、增透等性能被科研人员所青睐。经过半个世纪多的研究,以纳米二氧化硅作为主要成分的超疏水涂层材料获得了非常显著的进展,但是针对不同的建筑材料表面,此类超疏水涂层表面也有其明显的弊端。这些缺点主要体现在涂层与基底的粘附力不足;在线性或范围摩擦损害下,涂层由于自身不耐磨损失去本身性能;面对自然环境中的雨雪,暴晒等持续性伤害,涂层超疏
随着微电子工业的发展,对器件低功耗、高性能化、尺寸微型化以及集成化等方面提出了更高的要求。近年来,一种新型介电材料,钛酸铜钙(CaCu3Ti4012,CCTO),因其独特的介电行为、
为了提升公司效益,实现相关目标,上市公司会利用各种办法调整利润、扮靓业绩,其中,会计估计变更就是企业可以利用的方法之一。由于会计估计具有极强的主观性,且相关部门对企业的会计估计事项不够重视,对此监管不严,因此通过会计估计变更调节报表金额的案例层出不穷。基于此,本文以浙江华策影视股份有限公司为研究对象,探究了华策影视会计估计变更的动因及经济后果,以期为投资者和审计单位提供一些参考意见。本文对国内外关
西藏自治区位于我国的西南边陲,对我国边防稳定具有至关重要的作用,对于我国具有非常重要的政治战略意义和经济战略意义。随着西藏社会的发展和居民收入的提高,西藏人民的生活水平较之以往得有了非常大的改善,西藏人民的购买能力和消费水平较之以往也有了非常大的提升。当前西藏人民已经步入了小康社会,正在朝着共同富裕的目标前进,且西藏居民的消费结构也不断的优化升级,用于发展和享受需求的消费正逐渐增加。随着西藏经济的
本文运用无穷维动力系统理论研究了两类记忆型方程在Dirichlet边界条件下解的长时间动力学行为,具体分别为具有衰退记忆的弱耗散抽象发展方程和带记忆的非经典扩散方程.利用
目的:妊娠期血糖异常是妊娠期常见的代谢紊乱性疾病之一,可导致各类并发症。本研究旨在总结我院近五年妊娠期血糖异常的发病情况及与其相关的危险因素,并初步探索不同管理模式对妊娠结局的影响,同时比较不同胰岛素制剂对血糖控制的影响,从而希望引起备孕妇女更多的重视,也给医务人员在调控孕妇血糖的时候提供更多的方法和经验,以期达到积极预防及诊治的目的。方法:本研究为一项回顾性研究,分析了2018年1月1日至201
水平井分段压裂过程中,滑套球座作为重要组成部分之一,其冲蚀磨损将导致压裂球与滑套球座的密封性能下降,压裂过程中漏压,从而造成压裂失败。本课题组结合压裂过程中实际球座
自2015年以来,得益于程序简便、融资速度快等优势,股权质押受到上市公司的追捧,其规模在迅速扩张,不仅受到上市公司的青睐,其控股股东也在频繁地进行股权质押。2018年年末,在3434家有股权质押行为的上市公司中,有40%为控股股东实施股权质押的上市公司。但股权质押也有其不可避免的短板,由于委托关系产生的代理矛盾会被加深,股东控制权和现金流权的分离程度也会被加大,导致股东的利益侵占成本降低,从而让控