基于遗传算法的热点微博的聚类分析方法研究

来源 :西安建筑科技大学 | 被引量 : 0次 | 上传用户:leovvex
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
随着互联网络的快速发展,特别是移动互联网的普及,微博已经成为一种重要的社交工具,同时对微博博文的数据挖掘已经成为当前的研究热点。本文以新浪微博为研究对象,通过对微博的博文、微博时间和微博相关属性的深入研究,设计了一种改进的遗传聚类分析算法,实现了微博热点话题的挖掘。本文主要工作包含以下三个方面:(1)针对微博短博文空间向量表示的词向量维数过剩问题,通过Word2Vec中的神经网络模型,得到博文的词向量库,解决了TF-IDF算法中的词向量相关性弱的关键问题,实现了微博博文的向量化。(2)对于微博热度随着时间推移必将下降为零的现象。根据模拟退火算法的原理,设计了微博热度衰减模型,并通过大量实验分析,微博热度衰减模型准确率达80%以上,优于同类分析问题的水平。(3)针对模糊聚类分析算法的不足,设计了一种基于遗传退火的增量式模糊聚类算法,可以随时对新产生微博博文进行聚类分析。最后用平均查准率、平均查全率和平均F值对算法进行评价分析,准确率达到了82.3%,高于目前其他关于微博话题提取的准确率。最后,针对大量新浪微博数据,通过分词、博文向量化、加入时间和相关属性等数据预处理操作,形成微博向量,并通过改进的遗传聚类算法分析挖掘微博热点主题。同当时时间段的微博热搜排行榜比较,在官方前8个热点话题中有6个和实验结果一致,正确率达75%以上。
其他文献
基于2003—2015年283个地级市面板数据,利用双边随机前沿模型测算科技创新和要素市场扭曲对环境污染的双边影响。研究结果表明:第一,要素市场扭曲增加了42.98%的环境污染,科
"互联网+"时代为会计行业的发展带来机遇的同时,也提出了诸如信息安全与人才缺失等方面的挑战。从当前会计行业在互联网时代暴露的问题入手,提出以加强会计理论建设与实践结
随着市场经济体制的确立,以及我国经济水平的不断提升,与世界的接触增加,使得会计财务管理发生了一定改变。ERP系统得到了较为广泛的应用,有利于优化管理,并促进会计财务管理
[目的]解决百合干燥过程中易褐变和影响质量的问题,优选防褐变干燥工艺,为最终建立一套安全、简便、普遍适用的百合防褐变干燥大生产工艺奠定基础;建立百合中3种主要有效成分
目的证明纳秒级陡脉冲能够诱导人卵巢癌细胞SKOV3凋亡,且钙离子是其凋亡通路的重要介质。方法用不同参数组的纳秒级陡脉冲处理细胞,Annexin V/PI双染流式细胞仪检测其早期凋
通过对聚乳酸和ε-己内酯共聚物(PDLLCA)的体外降解性能的相关实验研究,探讨了在降解过程中,厚度相当的不同分子量的PDLLCA之间,多孔和无孔的PDLLCA之间的黏均分子量变化,质量损失
很多时候,下基层调研座谈、听领导干部汇报,总想听一些鲜活生动的事例,一些别开生面的观点。然而,很多同志的发言,不论怎么切入,总是讲自己的单位如何如何好、有哪些好的做法和经验
报纸