论文部分内容阅读
随着网络时代的快速发展,人们可以通过网络上各种公众的平台得到很多信息,巨大的信息量也已经成为当今时代大数据网络的一个发展趋势。食品安全的问题是一个值得关注的重要话题,所以要想从大量的信息中找到跟食品安全相关的重要问题是十分有意义的。Latent Dirichlet Allocation(LDA)作为一种潜在的语义主题模型,能够实现对于相同词语的语义之间的主题词汇之间的关联,以此去实现对文本中隐含词汇的分析和聚类,可以使得文档或者是文档集中每一篇文档的主题采用概率分布这种形式将其列出,比较适合我们研究食品安全舆情数据的分析。本文主要工作如下:(1)首先是获取数据,这里用到是爬虫技术。网络爬虫技术有几种爬取策略,所以针对每一种策略和规则进行比较,选出一种最适合做这个课题研究的。(2)对获取到的数据进行处理,数据的处理是为了保证数据的质量,所以这一过程也是很重要的,分为两步,第一步是对数据进行去杂,就是去掉无用的信息;第二步就是对数据进行分词处理,通过对数据分词处理的技术进行研究,发现使用最多的是结巴分词和NLPIR分词技术,本文选择的是结巴分词来进行操作的。(3)通过对处理好的数据利用LDA进行模型分析,它是无监督的学习技术,所以在此基础上再通过对LDA加上标签成为半监督的模型来进行对比分析,其中的模型参数利用Gibbs Sampling进行求解。最后通过几种模型与LDA以及半监督LDA的分析比较可以得出在对食品安全进行舆情数据分析的问题上是非常有帮助的,鉴于食品安全的重要性,所以这个研究是很有价值的,基于这种理论就可以对有关食品安全的问题进行舆情分析研究。