论文部分内容阅读
随着游戏市场的崛起,游戏相关从业人员亟需了解玩家对游戏的实际体验,以便有针对性地指导游戏运营与开发。与此同时,在舆情信息监测的实际业务中,也存在着手动收集评论信息范围过窄、信息处理效率过低以及分析结果过为主观等问题。因此,为了满足业务需求,本文设计并实现了一个基于分布式爬虫的游戏舆情监测系统。该舆情监测系统将高效分布式爬虫与舆情分析系统结合,可以实时高效地进行游戏评论数据获取和分析并通过可视化图表直观地进行展示。文本主要工作如下:1.分布式游戏主题增量爬虫。为解决游戏评价数量大、更新快、分布散的问题,本文设计了一个基于Master-Slave架构的分布式网络增量数据获取系统,以实时、高效地收集信息,同时设计了一个进行信息抽取的通用论坛信息抽取算法。此外,利用redis实现了一个高效的分布式Bloom Filter,极大提升了分布式环境下URL去重的效率。2.游戏评论数据分析。本文设计了包含网络新词发现、游戏热点追踪和游戏情感分析的游戏评论数据分析系统。针对游戏评论数据中新词、专有名词多的问题,使用左右熵和互信息结合游戏知识库实现了Tire树加速的游戏专有新词发现算法;针对从业人员自动探测游戏热点话题的需求,采用修正热度指标方法进行热点词的挖掘;设计了一种基于表情图标拓展语义的Skip-Gram词向量模型,且结合双向LSTM分类器实现了游戏评论数据情感倾向分类器。3.系统整体设计与实现。本文采用了Angular+Flask前后端框架以及Chart.js数据可视化框架基于前后端分离的思想,设计了整套评论分析系统。整体设计模式采用MVC模式,任务处理上采用API模式结合异步处理,整体系统性能良好,易用性和可拓展性优秀。依照本文思路构建的系统具有适应场景多、用户体验好等优点,已经在游戏公司内部进行试点使用,极大提高了相关工作人员的工作效率。为游戏从业者提供了一个更加方便、客观、专业的游戏舆情监测平台,帮助我国游戏产业取得更加长足的发展。