论文部分内容阅读
在线短租平台的快速发展为人们带来了新的体验,同时也产生了大量的评论数据,这些评论以住户的直接感受描述着房屋的好坏,人们在出行中选择住宿时也会或多或少的参考相关评价。网络环境中,评论信息很多,人们在面对这些海量评论时总是希望能快速有效地获取自己所需求的信息,找到令自己满意的房屋,对数据进一步分析可帮助用户快速判断房屋是否满足自己的需求。在各短租平台中,途家、小猪、Airbnb、蚂蚁等都发展较好,基于《互联网周刊》发布的在线短租平台排行榜,文章选取位居首位的途家网,爬取到17973条评论数据,经过数据清理,共剩余10285条有效数据。通过构建停用词表、自定义词表对评论数据作文本分词,进而提取特征词,归纳显示用户在选择房源时主要关注四大类因素:房间内部环境、房间设施、房东服务质量及周边环境。基于此提取特征句并对其作情感分析,首先用情感词典分析了评论的情感极性,其次用情感词典与朴素贝叶斯模型结合的方法做了情感极性分析,对比研究发现基于情感词典与朴素贝叶斯的情感分类更有效,故用后者作进一步分析。根据途家网已有分类,将文中数据分为七大类:loft复式、别墅单间、酒店式公寓、客栈、农家乐、普通公寓、四合院。在七大类民宿中,农家乐、别墅单间、普通公寓的好评率较高,而四合院、客栈和酒店式公寓的好评率相对较低,尤其是四合院在房间设施方面的好评率整体最低。整体而言,周围环境的好评率最高,房间设施和房间内部环境的好评率最低,差评主要集中在屋内有异味、家具陈旧、房间隔音不好、空调不能使用、卫生差五方面。对此,文章提出相关建议,四合院、客栈和酒店式公寓需从四个方面着手加强管理,尤其是四合院,需在房间设施和房间环境两方面着重改进;用户在出行的时候可以多加关注房间设施和房间内部环境。