【摘 要】
:
微博已经成为广大网民分享信息、拓展人际关系的重要平台,同时也是媒体扩充新闻来源和扩大自身影响力的有力工具,更成为有关职能部门了解热点、民意的有效渠道。微博产生的数据具有种类繁多、量大、更新不断等特点,人工收集和分析几乎是不可完成的任务。本文旨在研制一套微博热词发现和分析系统,提供从微博数据中发现热词、情感分类等功能。本文首先详细分析了用户的需求,在此基础上,设计了热词发现和分析系统,它主要包括四大
论文部分内容阅读
微博已经成为广大网民分享信息、拓展人际关系的重要平台,同时也是媒体扩充新闻来源和扩大自身影响力的有力工具,更成为有关职能部门了解热点、民意的有效渠道。微博产生的数据具有种类繁多、量大、更新不断等特点,人工收集和分析几乎是不可完成的任务。本文旨在研制一套微博热词发现和分析系统,提供从微博数据中发现热词、情感分类等功能。本文首先详细分析了用户的需求,在此基础上,设计了热词发现和分析系统,它主要包括四大部分:数据导入、数据处理、数据分析、可视化展示,下面详细介绍各部分功能:数据导入主要实现了数据一键导入功能和模板下载功能。数据处理主要实现了导入系统数据的预处理功能,包括数据去重、中文分词、过滤停用词。在过滤停用词部分,为了提高网络词汇、符号、emoji表情的过滤效果,本文合并了网络上一些比较热门的停用词表,提高了停用词的过滤效果。数据分析主要实现了词云图绘制、词频统计、情感分类。由于情感分类的Snow NLP库的语料库是采用商品评论数据进行训练的,因此在对微博内容进行情感分析时效果一般,因此本文收集了一些微博评论语料并进行训练,提高了情感分析的准确度。可视化展示主要实现了数据的可视化展示,分别以词云图、表格、饼图的形式展现词云、词频、情感分类的情况。可视化的形式自动过滤掉大量的低频低质的文本信息,使得用户能一眼扫过就可领略文本的主旨。在系统架构上,本系统采用三层架构,将整个业务应用划分为:表现层、业务逻辑层、数据访问层,达到了“高内聚,低耦合”的目的,该架构使得本系统结构清晰、耦合度低、可维护性高、可扩展性高,容易适应需求变化。
其他文献
医疗题材文学作为一种以卫生、健康、医疗等相关行业为主要题材的文学形式,与诊疗行为、医学教育、健康行业有着天然联系,这些文学作品在医学教育中有着重要作用,对于医学生
刚刚过去的“双十一”又是一个剁手党的狂欢日,成交额刷新了纪录。仅天猫淘宝一家“双十一”当天成交额超过1207亿元,比2015年912亿超过一倍。消费者发现,虽然今年的成交量大大
电话自动监控瓦斯氧气报警器具有检测瓦斯、氧气浓度功能,在瓦斯浓度超限或缺氧超限时能进行声光报警,并且自动拨通煤矿安全局主要负责人电话,使其对矿主、安检员、某些矿的负责
对中国海疆意识的溯源可以发现中国疆域文化并非"重陆轻海"而是"陆海一体",中国自古即有的南海海疆意识便是例证。而中国的南海海疆意识,属于对国家整体疆域认知中的海上疆土
花生田蛴螬是危害花生的重要害虫之一,其危害可引起花生的大幅度减产,甚至绝产。为了有效地控制其危害,临沂市农科院花生课题组开展了对花生蛴螬发生规律和防治技术的调查研
由于沥青路面耐久、稳定以及抗裂等优越性能,在市政道路中也多有应用,然而接缝问题的处理关系到沥青路面的平整效果,需要掌握好沥青路面接缝技术,提高市政道路质量。文章分析
目的探索人口腔黏膜成纤维细胞体外培养,观察其在聚乳酸羟基乙酸(PLGA)膜上生长情况。方法体外分离培养人口腔黏膜成纤维细胞,苏木精-伊红染色,光镜、倒置相差显微镜、扫描电
现代科学发展趋势之一,是学科与学科间的日益渗透与交流,从生物学的范围来讲,分类、形态(包括微形态),生态、生理、生化、遗传、细胞等分支学科,在其发展的初期,几乎是各自独立的,但随
高职院校将参加物流技能大赛作为应用型人才培养的检验标准,文中介绍了物流沙盘竞赛的基本情况,分析了其对物流管理专业发展方面的影响。