基于LDA主题模型的食品安全舆情数据分析

来源 :武汉轻工大学 | 被引量 : 0次 | 上传用户:new4sophia
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
随着网络时代的快速发展,人们可以通过网络上各种公众的平台得到很多信息,巨大的信息量也已经成为当今时代大数据网络的一个发展趋势。食品安全的问题是一个值得关注的重要话题,所以要想从大量的信息中找到跟食品安全相关的重要问题是十分有意义的。Latent Dirichlet Allocation(LDA)作为一种潜在的语义主题模型,能够实现对于相同词语的语义之间的主题词汇之间的关联,以此去实现对文本中隐含词汇的分析和聚类,可以使得文档或者是文档集中每一篇文档的主题采用概率分布这种形式将其列出,比较适合我们研究食品安全舆情数据的分析。本文主要工作如下:(1)首先是获取数据,这里用到是爬虫技术。网络爬虫技术有几种爬取策略,所以针对每一种策略和规则进行比较,选出一种最适合做这个课题研究的。(2)对获取到的数据进行处理,数据的处理是为了保证数据的质量,所以这一过程也是很重要的,分为两步,第一步是对数据进行去杂,就是去掉无用的信息;第二步就是对数据进行分词处理,通过对数据分词处理的技术进行研究,发现使用最多的是结巴分词和NLPIR分词技术,本文选择的是结巴分词来进行操作的。(3)通过对处理好的数据利用LDA进行模型分析,它是无监督的学习技术,所以在此基础上再通过对LDA加上标签成为半监督的模型来进行对比分析,其中的模型参数利用Gibbs Sampling进行求解。最后通过几种模型与LDA以及半监督LDA的分析比较可以得出在对食品安全进行舆情数据分析的问题上是非常有帮助的,鉴于食品安全的重要性,所以这个研究是很有价值的,基于这种理论就可以对有关食品安全的问题进行舆情分析研究。
其他文献
新中国成立后,正当中国共产党集中精力巩固新生的人民政权、恢复国民经济的时候,朝鲜战争爆发,美国出兵干涉并把战火烧到了鸭绿江边,而且命令第七舰队侵入台湾海峡,中国的安全受到
随着汽车产业的不断发展,石油资源的日益短缺和空气污染的日益严重,人们在追求汽车的动力性和稳定性的同时,还对汽车的经济性、安全性和排放等提出了越来越高的要求。作为汽
目的:研究T1-2N1M0期乳腺癌根治术后患者放疗疗效及预后相关因素,为该分期术后病人治疗方案的选择提供依据。方法:回顾性分析2004年1月至2008年1月间本院收治并有完整记录的T1-2
当今社会愈来愈激烈的竞争环境给人们带来了巨大的精神压力,由此诱发的以抑郁症为代表的精神疾病正成为人类健康和社会和谐的一大威胁。根据世界卫生组织的最新估计,2016年全
目的:应用免疫组织化学方法检测正常卵巢、卵巢浆液性囊腺瘤及卵巢浆液性囊腺癌三种病理组织中SOX-2及OCT-4的表达,对SOX-2及OCT-4在卵巢浆液性囊腺癌中的表达与组织病理学分级
随着中西医结合研究的发展,临床上为了增强治疗效果常联合使用中西药,而人们往往只注意了西药运用中的配伍禁忌,而忽略了中西药物联用时的配伍禁忌。有些中西药联用,由于物理性、
目的探讨造影剂肾病(radiocontrast-induced nephropathy,RCIN)的临床相关因素及其转归。方法回顾性分析住院行冠脉造影及介入治疗患者1062例,比较临床特点、造影剂使用剂量
对森林资源二类调查原"操作细则"和新"技术细则"进行对比分析,指出两者不同点,同时讨论了一类清查与二类调查数据衔接问题、无抽样控制县总体蓄积量修正问题、与国土地类衔接
目前,很多人认为日语已经发生了很大的变化。其理由是人们不经常使用敬语,而且标准化的语言正在渐渐消失。词汇也经常发生变化。随着词语的演变,敬语将会发生怎样的变化呢?这