基于密度峰值融合K-means聚类算法的微博舆情分析

来源 :江苏科技大学 | 被引量 : 0次 | 上传用户:huashu123
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
社交媒体近几年快速发展,微博逐渐发展成为了人们日常生活中不可或缺的一种社交媒体。微博舆情对社会具有极强的影响力,它实时地反映了大众对各种事件的观点和态度,是政府掌握事件舆情和发展动态、企业了解民意的重要渠道。因此及时准确地分析微博舆情对正确地预测和控制社会事态的发展、对促进国家的经济建设和维护社会的安定团结具有极其重要的意义。本文将针对微博舆情分析技术展开深入研究,包含微博数据获取、微博文本的预处理、文本聚类以及舆情结果分析这四个方面。本文的研究工作主要包括以下三个部分:第一部分采用密度峰值算法(CFSFDP)融合K-means算法方式完成微博文本聚类。密度峰值快速准确地发现聚类中心弥补K-means算法选取聚类中心时具有随机性的不足。但密度峰值算法存在截断距离需手动设定、聚类中心选取较主观的缺点。本文提出一种截断距离选取策略,找出最优截断距离,然后对布局密度以及相对最小距离实行归一化处理后,引入斜率变化计算方法实现自动化确定聚类中心,最后利用K-means算法简单易操作的特点迭代聚类。将融合后算法和其他算法进行实验操作后对比分析,验证本文算法在文本聚类方面的精确性和稳定性,更好地挖掘微博热点话题。第二部分对微博API采集流程、用户认证进行分析、网页抓包和微博站点进行分析。在网络爬虫部分利用自开发的爬虫脚本模拟浏览器请求、存储并解析数据实现微博数据爬取。通过对微博API和网络爬虫两种数据采集方式进行实验比较,分析各自的优缺点,结合本文实验条件和需求抉择数据采集方式。第三部分将上述两部分的技术和理论研究投入到微博舆情分析实际应用中。舆情分析最重要的是数据,对于数据的处理,利用python语言完成数据清洗、中文分词、去停用词、特征权重计算与文本向量表示。舆情分析方面,采用Boson NLP情感词典进行情感倾向分析,以AC自动机算法完成微博舆情敏感信息的检测。
其他文献
随着现代化的制造工艺发展,模具已被广泛应用到制造行业来提高生产加工的效率、材料利用率和降低生产成本等。模具的表面改性是提高模具性能的重要手段,其中TD盐浴是有效的表面改性方法之一。TD盐浴渗钒的研究已经有了四十多年的历史,但TD盐浴渗钒的工艺、设备及实用性等方面还存在着许多待解决的问题,特别是在以工业纯试剂为基础的工艺应用研究方面仍需有可靠的实验结果为理论分析做准备,以期推动渗钒在模具制造上的应用
为了实现对电真空热管热水锅炉的实时控制,使它更节能、实用,设计了多功能电真空热管热水锅炉控制器。该控制器系统由AT89C51单片机、数字温度传感器DS18B20、语音芯片ISD142
目的探讨第一产程潜伏期采取骨盆摇摆辅助干预对产妇产程进展、疼痛程度和舒适度的影响。方法选择2015年5月-2016年5月在我院生产的足月单胎头位妊娠初产妇240例为研究对象。
近年来,我国的未成年人犯罪率持续上升,未成年人犯罪已成为一个突出的社会问题,未成年人已成为违法犯罪的高发群体。出于为四川省预防未成年人犯罪立法提供实证依据的研究需
近年来,随着地下空间越来越受到重视,城市地下综合管廊不断新建,管廊的建设里程也越来越大。在管廊的设计中,管廊交叉口往往不同于其他管廊节点,由于其工艺布置要求,交叉口既
城市化进程的快速推移,使得城市人口激增,也进一步推动了市政基础设施建设步伐。在市政基础设施建设中,综合管廊得到了广泛的推广和应用。在实际建设过程中,若综合管廊的结构
对于留置权适用的条件,《物权法》作出了较为明确的规定。无锡市中级人民法院在"长三角商品交易所有限公司诉卢海云返还原物纠纷案"中,将劳动债权排除在留置权的适用范围之外
历代论家对《史记》附传未能予以足够重视,然附传是《史记》人物传记的有机组成部分,实现了为历史人物立传的最大化需求,也实现了通变和立名的著述目的;从结构意义讲,附传具
干旱是制约农业发展的瓶颈,笔者通过多年的生产实践,总结出应用秸秆还田,增施绿肥,农牧结合,畜粪肥田,选用抗旱良种,推广旱作节水技术,良种良法配套,艺机集成等一系列抗旱措
随着社会、经济的飞速发展,商业建筑的聚集效应开始出现。人们的消费观念和生活方式发生许多变化,商业经营管理的技术手段也日益完善,消费环境也更加注重物质和精神的双重满足。商业购物空间作为重要的公共建筑应运而生,庞大的体量和人气使其被视为一种城市标志性建筑形式。近几年国内商业购物空间经历了一个快速“开花”的发展过程,然而快速的发展并未造就品牌数量、质量的双重发展,共享消费模式下伴随着人们丰富的日常生活方