基于情感倾向的酒店评价分析与研究

来源 :哈尔滨工程大学 | 被引量 : 0次 | 上传用户:jiaozhixuan
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
近年来,我国持续保持世界第一大出境旅游客源国和第四大入境旅游接待国地位,旅行成为了国人重要的生活方式,这使得国内酒店预定量激增。这些现象的背后除了旅游市场的日渐开放与旅游体系的不断完善外,离不开Web2.0时代下互联网上信息的升级。互联网用户渐渐成为网络内容的创造者,酒店行业中庞大的评论数据便是Web2.0精神的具体体现。酒店评论的初衷是为屏幕前即将预定酒店的用户提供参考,但过于大量且个性化的评论经常会让客户感到迷茫,这时,酒店在线评论的研究与分析就成了迫在眉睫的任务。本文对现有情感分析算法进行了改进,将“点赞数”作为考察每条评论重要程度的因素,得出一个具有创新性的情感强度分析算法。使得已有一定数量有效评论的酒店在此算法的分析下可以从评论中挖掘出酒店特征。本文具体作了如下研究:首先,本文对数据获取与存储技术进行了介绍,包括网络爬虫的基本概念与分类,爬虫与反爬虫相关机制与Python语言爬虫程序的方式;对文本预处理方法进行了介绍,包括现今主流的中文分词系统;对数据挖掘相关技术预算法进行了详细介绍,包括线性判别分析、朴素贝叶斯、决策树与随机森林等分类方法,以及K-means、密度聚类等聚类方法。其次,对携程旅行网中北京市部分五星级酒店的评价信息进行爬取,后又对爬取到的酒店评价进行了预处理,包括分词与去停用词,为下一步进行数据挖掘操作做铺垫。用文本相似度取代欧氏距离,运用改进后的K-means算法对爬取到的酒店评论数据进行聚类操作,经过几次实验后得出相对优化的聚类结果,得出描述酒店特征的房间卫生、周边环境、酒店服务、设备设施四个属性。最后,对酒店评价信息进行抽样,并建立训练集与测试集。接下来对情感强度系数进行人工标注,经过训练与交叉验证后,得出基于随机森林的回归器,用来计算每条评论的情感强度系数,在此之后为影响评论价值的“点赞数”分配经过计算的权重,最终得出一个完整的酒店在线评论情感强度系数计算公式。后经实验证明加入点赞数权重后的模型计算结果与携程网中数据基本一致,该模型行之有效。
其他文献
图像边缘检测是数字图像处理的一个重要研究领域,它属于特征提取的范畴,是计算机视觉的重要基础。图像边缘含有一幅图像的主要信息,在现实应用中,具有十分重要的意义,但同时
随着三维建模技术和互联网技术的快速发展,基于内容的三维模型检索成为研究热点,而三维模型的表现形式不仅决定着三维模型的显示效果,同时也是三维模型检索技术的基础。本文
概念格和连通性分析是近年来获得飞速发展的数据分析的有力工具,已被广泛地应用于知识发现和数据挖掘领域,并取得了较好的成果。因此研究概念格及连通性分析的基本理论及其在
互联网已经成为我们生活中不可缺少的工具,我们每天都会使用浏览器上网浏览网页,但是接入网络的计算机随时都处在被远程攻击的危险当中。当浏览器访问到恶意的Web服务器时,服
随着无线传感器网路技术的飞速发展,依靠无线传感器网络进行信息采集和动态监测的技术在小区安保、智能家具、危险区域信号采集、智能交通等领域得到了广泛的应用并创造巨大
虚拟现实系统是一项涉及仿真技术、计算机图形学、人机接口技术、传感技术、网络技术等多个学科的综合技术,它可以将数据和影像生成近似现实世界的三维视觉、触觉、听觉、运
移动远程医疗监护技术是远程医疗技术在移动网络和嵌入式技术上的应用,其目的是为患者提供实时、便捷的医疗服务。它是无线网络技术、嵌入式技术以及现代医疗技术等多种技术
对象存储是一种新兴的网络存储接口,它可以很好地解决附网存储(Network-attached Storage,NAS)和存储区域网(Storage Area Network,SAN)这两种网络存储结构的缺点,集合它们的
随着遥感技术的飞速发展,遥感影像分辨率的不断提高,遥感影像开始广泛应用于生产、生活中的各个领域。高分辨率遥感影像具有分辨率高、信息量大的特点,因此针对这类遥感影像进行目标特征的提取、分类可以获取大量有用信息。作为一种常用的非监督分类算法,ISODATA无需指定准确的类别数目,而是通过对聚类结果进行不断地“合并”与“分裂”,来得到一个较为合理的类别数目,从而得到一种较好的分类结果。由于高分辨率遥感影
信任模型是一种建立和管理信任关系的框架,它强调成员以及数据的可信性,通过对应用环境中的不端行为进行通告和限制,为用户能够更加合理的使用资源提供保证。目前信任模型在P