论文部分内容阅读
近年来“食品安全”问题屡见不鲜,严重影响到人们的日常生活,为了能够及时的从网络新闻中发现可能会爆发的热点话题,尤其是具有负面影响的食品安全事件,帮助政府相关部门及时了解事件的发展动向和社会舆论,本文对其进行了方法研究和实现。本文的主要研究内容可以分为三个部分:主题爬虫的改进和实现、舆情分析及话题提取、食品安全舆情分析系统的开发。对于主题爬虫部分,在主题爬虫技术的基本原理和关键技术的基础上,提出了一种改进的主题爬虫方法:将传统的网页正文获取技术进行了改进,得到一种基于HTML代码解析和文字密度相结合的正文抽取方法,可以一定程度提高正文抽取的准确率;将文本相似度计算中的向量空间模型方法进行了改进,得到一种降维VSM的多参考因素的相似度计算方法,并结合网页内容与主题内容进行相似度的计算;与此同时,优化了爬虫的初始种子模块和动态阈值调整模块;对大规模URL的排序、去重和多线程也进行了相应的改进。经过对各个模块的优化,实现了-个面向特定主题的爬虫系统,通过实验对比,证明改进后的主题爬虫在效率和精确度方面都得到了较大的提高。在舆情分析及话题提取部分,通过比较几种常用聚类算法的优缺点,最终选择使用single-pass聚类算法;并对single-pass聚类算法进行了改进,将聚类过程中的簇中心向量确定方法进行了修正,得到一种基于时间参考因素的多层single-pass聚类算法;对传统的话题提取过程进行了改进,得到一种基于向量空间模型的改进single-pass聚类方法的话题提取技术。最后通过实验对比验证改进后的聚类算法以及话题提取方法的效率以及准确度都得到了一定的提高。本文最后实现了一个食品安全舆情分析系统,通过主题爬虫将互联网上的相关数据下载下来,经过相应的数据整理,使用single-pas s聚类算法进行热点话题提取,可以及时发现近期发生的食品安全热点事件。