基于字符级卷积神经网络的民宿顾客意见挖掘

来源 :重庆师范大学 | 被引量 : 0次 | 上传用户:btxzero
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
在线评论蕴含着丰富的顾客意见信息,传统意见挖掘的方式具有数据稀疏和样本分布不均匀的问题,本文以公开在线非结构化数据为基础,通过数据的结构化抽取、无监督聚类和深度学习分类技术,以在线民宿的评论数据开展了顾客意见挖掘方面的研究,最后将多种文本分类算法进行对比实验,叙述了本文模型在情感分析上的优势,具体的研究贡献体现在以下三个方面。第一,设计了基于Requests POST和Scrapy相结合的携程民宿评论数据采集方法。该方式针对民宿板块网页的特殊结构,利用Requests POST解决网页动态加载的问题,结合Scrapy解决爬虫多线程采集的问题,通过这两种技术相结合所得到的数据,可以方便的对数据进行抽取,并将处理后的结果自动存入数据库。仿真实验表明,该方式可以增加携程民宿板块的数据采集效率,在采集速度和质量上均优于基于网页加载的Selenium技术。第二,设计了基于隐含狄利克雷聚类的民宿主题属性词典构造方法。首先民宿评论容易一句中出现多个民宿主题,以标点符号为间隔能使得分散在一段评论中的不同评价主体通过标点符号被分开,通过词性标注技术选取每段评论的名词,然后利用多种向量化方式对评论文本进行向量化,以隐含狄利克雷方法对评论主题进行聚类,建立民宿主题属性词典,对比民宿标准文件以及携程网中客栈民宿的评价指标,本文丰富各个评价指标。通过实验验证了本方法在民宿意见隐含主题挖掘中的应用是有效的。第三,提出了一种字符级卷积神经网络的情感极性计算方法。将顾客打分和评论情感进行两极映射,使用数据自动标注和基于弱监督预训练的数据增强方式自动扩充和优化数据集,实验证实了在情感分类中,使用本文的字符级卷积神经网络(C-CNN-SA)可以在不依赖分词的情况下,达到的精度和F值均高于词级粒度,并在字符级向量化分类模型中,结果显示卷积神经网络在短文本情感分类中效果最好,字符级卷积神经网络在训练速度和效果上优势明显。
其他文献
朗读是我国传统的学习语文的好方法,是语文教学中最经常最重要的基本功训练方式。《语文课程标准》特别强调要加强朗读,要求用普通话正确、流利、有感情地朗读。教师要指导学
指出城市电网是城市发展的重要基础设施,在编制各类城市规划时均应将电力规划纳入其中,以实现电网建设与城市发展相互配合,同步实施。从城市规划角度出发研究了电力专项规划
夹具设计是机械制造生产过程的技术准备工作中一项重要内容,是产品设计与车间生产的纽带,是经验性很强且影响因素很多的决策过程。当前,机械产品市场是多品种小批量起主导作
从点焊数值模拟、残余应力、疲劳寿命、焊点优化等方面论述了近年来电阻点焊的研究历程,并且分析了在电阻点焊研究中已经取得的成果以及还存在的问题,探讨了电阻点焊结构的未
本文通过对山东省临邑县中小企业的问卷调查,发现县域中小企业融资存在一定问题,比如流动资金缺口大,融资渠道单一,难以获得中长期固定资产贷款,过度依赖金融机构的间接融资,
力戒骄傲,这是毛主席经常教导我们的。我们每个共产党员必须牢牢地记住这句话,并且把它贯彻到实际行动中去。1949年,当我国革命即将在全国范围内取得胜利的时候,毛主席就提醒
非均匀性是焦平面红外成像设备的固有特性,影响成像质量。介绍了非均匀性产生的原因、校正方法及校正残差的描述方法。从理论上分析计算了不同校正方法的校正残差及其变化规
随着经济的快速发展,环境问题日益突出,医疗废物也成为我国的一大环境问题。医疗废物是我国危险废物名录中的第一类,因为其具有直接或间接感染性、高危害性、处置专业性、难
现阶段我国科研机构研究生教育存在的主要问题1.政策扶持力度不足,制度保障乏力从整个宏观层面上对比,科研机构的研究生教育无论是国家投入还是政策支持都远远落在了高校后面。
镁合金是目前最轻的结构材料之一,具有比强度和比刚度高、环境友好性强、电磁屏蔽性好、易于加工、铸造性能好等优点,被广泛应用于航空航天、交通工具及电子产品等领域。Mg-Al