论文部分内容阅读
在线评论蕴含着丰富的顾客意见信息,传统意见挖掘的方式具有数据稀疏和样本分布不均匀的问题,本文以公开在线非结构化数据为基础,通过数据的结构化抽取、无监督聚类和深度学习分类技术,以在线民宿的评论数据开展了顾客意见挖掘方面的研究,最后将多种文本分类算法进行对比实验,叙述了本文模型在情感分析上的优势,具体的研究贡献体现在以下三个方面。第一,设计了基于Requests POST和Scrapy相结合的携程民宿评论数据采集方法。该方式针对民宿板块网页的特殊结构,利用Requests POST解决网页动态加载的问题,结合Scrapy解决爬虫多线程采集的问题,通过这两种技术相结合所得到的数据,可以方便的对数据进行抽取,并将处理后的结果自动存入数据库。仿真实验表明,该方式可以增加携程民宿板块的数据采集效率,在采集速度和质量上均优于基于网页加载的Selenium技术。第二,设计了基于隐含狄利克雷聚类的民宿主题属性词典构造方法。首先民宿评论容易一句中出现多个民宿主题,以标点符号为间隔能使得分散在一段评论中的不同评价主体通过标点符号被分开,通过词性标注技术选取每段评论的名词,然后利用多种向量化方式对评论文本进行向量化,以隐含狄利克雷方法对评论主题进行聚类,建立民宿主题属性词典,对比民宿标准文件以及携程网中客栈民宿的评价指标,本文丰富各个评价指标。通过实验验证了本方法在民宿意见隐含主题挖掘中的应用是有效的。第三,提出了一种字符级卷积神经网络的情感极性计算方法。将顾客打分和评论情感进行两极映射,使用数据自动标注和基于弱监督预训练的数据增强方式自动扩充和优化数据集,实验证实了在情感分类中,使用本文的字符级卷积神经网络(C-CNN-SA)可以在不依赖分词的情况下,达到的精度和F值均高于词级粒度,并在字符级向量化分类模型中,结果显示卷积神经网络在短文本情感分类中效果最好,字符级卷积神经网络在训练速度和效果上优势明显。