论文部分内容阅读
随着互联网技术的发展与大数据时代的来临,网络媒体已经成为人民获取信息的主要渠道,并且网络信息和网络评论的影响力也在显著增加。网络舆情事件波及广,传播快,对社会稳定和舆论导向都容易产生重大的影响,尤其是突发事件常常会引发社会各界,甚至敌对势力的共同关注,如果不及时加以抑制任凭事件发酵升级会造成比较严重的后果。由于网络的开放性,自由性和无源性,舆情事件的管理与监控一直缺乏行之有效的方案,导致近几年网络舆情事件涉及的主体越来越广,从各级政府职能部门到军队以及企业公司都受到过不同程度的影响。因此,海量数据和高实时性自动化分析成为舆情系统新的挑战,而传统人工分类识别舆情事件的方式无论从实时性还是准确性方面考量均不能满足要求。采用自动化的方式在庞大的数据信息流中快速,准确的发现热点话题,敏感话题以及舆论的趋势,是自动化舆情分析系统的基本要求。本课题基于实际项目需求,采用BBS和新闻网站作为主要的数据对象,实现了一套面向大数据的实时舆情分析系统。其中主要的工作如下:第一,本文介绍了舆情分析系统各个模块的技术原理和具体实现,从理论和实践两方面介绍其适用场景,核心技术,主要包括爬虫技术与自然语言处理技术等。第二,本文针对现有CHI特征选择算法需要人工界定阈值的不足,提出了基于Bootstrap的特征选择算法,该方法区别于传统限定阈值的特征选择方法可以根据被筛选文本的内容进行动态阈值学习。第三,本文给出舆情系统的总体架构和子模块划分,并针对现有舆情系统中存在的不足,提出了一套针对海量文本特征选择的方法。此外,本文使用了主题提取方法,用主题词汇对舆情事件进行概括,从而减少人工审计的压力。第四,本文采用了分布式并行存储方案,用于BBS,微博,短篇新闻及中间运算结果保存。MongoDB是基于key-value对的分布式非关系型数据库,在文本处理方面有着较强的扩展性和灵活性。