基于主题爬虫的食品安全网络舆情分析方法研究与监测系统开发

来源 :北京化工大学 | 被引量 : 11次 | 上传用户:mercurian88
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
近年来“食品安全”问题屡见不鲜,严重影响到人们的日常生活,为了能够及时的从网络新闻中发现可能会爆发的热点话题,尤其是具有负面影响的食品安全事件,帮助政府相关部门及时了解事件的发展动向和社会舆论,本文对其进行了方法研究和实现。本文的主要研究内容可以分为三个部分:主题爬虫的改进和实现、舆情分析及话题提取、食品安全舆情分析系统的开发。对于主题爬虫部分,在主题爬虫技术的基本原理和关键技术的基础上,提出了一种改进的主题爬虫方法:将传统的网页正文获取技术进行了改进,得到一种基于HTML代码解析和文字密度相结合的正文抽取方法,可以一定程度提高正文抽取的准确率;将文本相似度计算中的向量空间模型方法进行了改进,得到一种降维VSM的多参考因素的相似度计算方法,并结合网页内容与主题内容进行相似度的计算;与此同时,优化了爬虫的初始种子模块和动态阈值调整模块;对大规模URL的排序、去重和多线程也进行了相应的改进。经过对各个模块的优化,实现了-个面向特定主题的爬虫系统,通过实验对比,证明改进后的主题爬虫在效率和精确度方面都得到了较大的提高。在舆情分析及话题提取部分,通过比较几种常用聚类算法的优缺点,最终选择使用single-pass聚类算法;并对single-pass聚类算法进行了改进,将聚类过程中的簇中心向量确定方法进行了修正,得到一种基于时间参考因素的多层single-pass聚类算法;对传统的话题提取过程进行了改进,得到一种基于向量空间模型的改进single-pass聚类方法的话题提取技术。最后通过实验对比验证改进后的聚类算法以及话题提取方法的效率以及准确度都得到了一定的提高。本文最后实现了一个食品安全舆情分析系统,通过主题爬虫将互联网上的相关数据下载下来,经过相应的数据整理,使用single-pas s聚类算法进行热点话题提取,可以及时发现近期发生的食品安全热点事件。
其他文献
采用高温废气氧化-酸性冷凝液浸泡循环法模拟柴油机的排气环境,对比研究废气中引入尿素后排气系统用304和439不锈钢的冷凝液腐蚀行为,并分析了尿素对不锈钢氧化与腐蚀的作用
<正>北京市在近期的轨道交通新机场线及首都地区环线高速公路PPP项目报价评分中,均采用了合理低价、倾向于低价的评分方式,与兴延高速公路PPP项目的评分方式形成对比,在公开
期刊
PPP
诗人艾青在1938年创作出《我爱这土地》,此诗被中国艺术歌曲创作领域有所成就的作曲家陆在易创作出了同名的歌曲《我爱这土地》。笔者通过、查阅大量相关的文献资料对词、曲
把单摆中的质点换成匀质刚体杆,即构成了一个绳杆复合摆。文章从全国中学生物理奥林匹克竞赛中的一道题目出发,研究了绳杆复合摆问题,简要阐述了从牛顿定律、守恒定律、拉格
<正>呃逆是随着声门的闭合,膈肌不由自主地重复痉挛收缩而出现,被认为与一次或多次刺激呃逆反射弧有关。该呃逆反射弧由与中枢相联系的多突触的内脏和躯体传入传出纤维所组
目的观察自制复方麝香草酚醇溶液对白兔的皮肤急性毒性及豚鼠的皮肤刺激性,为临床应用提供理论依据。方法将12只白兔随机均分为3组,在其背部脱毛24 h后,A、B组分别涂抹复方麝
心血管病是危害人类健康的主要疾病之一。传统危险因素难以解释所有心血管病,近年有许多新危险因素如炎症、促凝因素、同型半胱氨酸、纤维蛋白原、血尿酸、感染、胰岛素抵抗(