论文部分内容阅读
随着移动网络的完善和智能终端设备的普遍使用,手机游戏成为了人们碎片时间中娱乐的一种方式。手机游戏会在各个应用市场上提供给玩家下载,玩家也可以通过应用市场的评论区域对手游进行评价。对于游戏运营而言,他们可以从这些评论反馈中观察游戏活动、新版本在玩家的反响和口碑,并指导改进游戏的质量,从而在激烈的竞争中占据优势。但是随着时间的推移,这些评论会不断增多,人工地对这些海量的评论分析成为了游戏运营的一个难点。因此需要针对这些手游评论进行情感分析及建设一套手游领域的评论情感分析系统。本文以手游领域为背景,对海量的手游评论进行情感分析的需要的关键技术进行研究。重点研究同款手游评论数据融合、手游领域词典的构建、评论情感倾向性分析、评价搭配抽取。本文在这些关键技术基础上,通过Hadoop、Spark、Kafka、ElasticSearch、Zookeeper、MySQL、Spring MVC等工具和框架,用Java语言实现了一套手游领域的评论情感分析系统。文本的主要工作如下:(1)手游基本信息及评论的抓取、数据融合以及手游领域词典的构建。利用Spark、Kafka、Redis等工具构建分布式爬虫系统,爬取多个数据源的手游基本信息和手游评论数据。研究了同款手游识别方法,并对同款手游下的多个源评论数据进行融合。研究了新词发现算法,以爬取的手游描述简介、手游名称、手游评论为文本语料,构建了一个手游领域词典。通过特征选取的方法从手游文本语料中构建了一个情感词典。(2)手游评论的情感分析。利用Co-Training、Pu-Learning技术进行大规模自动标注评论的情感倾向性。通过liblinear训练NB-LR模型来对评论进行情感倾向性分析。利用依存句法分析抽取手游评论的评价搭配,并通过SVM对搭配抽取结果进行过滤。实验结果表明上述模型和算法能够较好地提取出手游评论中的评价搭配。(3)手游评论情感分析系统的设计与实现。在上述研究基础下,利用Spring MVC为web框架,Elasticsearch为检索引擎、MySQL、HBase作为存储引擎、Spark作为计算框架、Thrift作为RPC框架搭建一套手游领域的评论情感分析系统。论文的研究工作对于垂直领域的情感分析系统开发具有一定的实际参考价值。