舆情分析系统的设计与实现

被引量 : 1次 | 上传用户:fitye228
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
随着互联网技术的发展与大数据时代的来临,网络媒体已经成为人民获取信息的主要渠道,并且网络信息和网络评论的影响力也在显著增加。网络舆情事件波及广,传播快,对社会稳定和舆论导向都容易产生重大的影响,尤其是突发事件常常会引发社会各界,甚至敌对势力的共同关注,如果不及时加以抑制任凭事件发酵升级会造成比较严重的后果。由于网络的开放性,自由性和无源性,舆情事件的管理与监控一直缺乏行之有效的方案,导致近几年网络舆情事件涉及的主体越来越广,从各级政府职能部门到军队以及企业公司都受到过不同程度的影响。因此,海量数据和高实时性自动化分析成为舆情系统新的挑战,而传统人工分类识别舆情事件的方式无论从实时性还是准确性方面考量均不能满足要求。采用自动化的方式在庞大的数据信息流中快速,准确的发现热点话题,敏感话题以及舆论的趋势,是自动化舆情分析系统的基本要求。本课题基于实际项目需求,采用BBS和新闻网站作为主要的数据对象,实现了一套面向大数据的实时舆情分析系统。其中主要的工作如下:第一,本文介绍了舆情分析系统各个模块的技术原理和具体实现,从理论和实践两方面介绍其适用场景,核心技术,主要包括爬虫技术与自然语言处理技术等。第二,本文针对现有CHI特征选择算法需要人工界定阈值的不足,提出了基于Bootstrap的特征选择算法,该方法区别于传统限定阈值的特征选择方法可以根据被筛选文本的内容进行动态阈值学习。第三,本文给出舆情系统的总体架构和子模块划分,并针对现有舆情系统中存在的不足,提出了一套针对海量文本特征选择的方法。此外,本文使用了主题提取方法,用主题词汇对舆情事件进行概括,从而减少人工审计的压力。第四,本文采用了分布式并行存储方案,用于BBS,微博,短篇新闻及中间运算结果保存。MongoDB是基于key-value对的分布式非关系型数据库,在文本处理方面有着较强的扩展性和灵活性。
其他文献
针对大中型高能耗的企业,提出了一种基于SQL Server2008的数据挖掘软件平台,研究从海量生产数据中挖掘节能潜力,并对该系统在重型企业的应用做了实例分析,采用线性回归等算法
<正>众所周知,中国广告真正意义上的发展只有30年的时间,理论几乎全面吸纳了西方的成果,这就导致中国广告在快速成长的同时有着先天不足的缺陷。在全球化背景下,建立在商品文
世界经济一体化步伐的加快与国际范围内的市场竞争愈加激烈,促使我国烟草行业逐渐意识到发展的重要性,开始关注企业文化这一要素在企业发展过程中的作用,希望借企业文化之力
语文在高考中占有举足轻重的地位,而写作能力是学生语文素养的综合体现。语文新课标要求学生进行富有个性化,创新性的写作。笔者在本文中探究了高中语文个性化作文教学的相关
篮球规则和篮球比赛产生于同一时间,并且二者相得益彰,篮球规则也随着篮球运动飞跃性的进步而不断健全。研究现代篮球规则和FIBA篮球技战术,在研究篮球规则和篮球技战术的进
英语语言作为一种特定的文化现象和交际手段,与文化是密不可分的,因此现阶段的高中英语教学不能仅仅停留在知识的传授层面,还应当重视学生跨文化交际能力的培养。对此,本文首
本论文在对A公司决策需求分析基础上,设计了运营数据分析和决策系统平台。平台通过对全网用户终端信号质量和用户收视数据监控,统一报表管理,为决策层的决策提供支持。系统设
<正>7月1日,国务院下发《关于积极推进"互联网+"行动的指导意见》。在重点行动一节中,与医药行业相关的表述包括:——发展体验经济,支持实体零售商综合利用网上商店、移动支
随着经济的快速发展和市场由卖方市场向买方市场的转变,白酒企业市场供求格局也出现了根本性转变,简单提供服务的传统商业模式已经不能够满足客户多层次的需求。服务不仅仅是