论文部分内容阅读
随着互联网络的快速发展,特别是移动互联网的普及,微博已经成为一种重要的社交工具,同时对微博博文的数据挖掘已经成为当前的研究热点。本文以新浪微博为研究对象,通过对微博的博文、微博时间和微博相关属性的深入研究,设计了一种改进的遗传聚类分析算法,实现了微博热点话题的挖掘。本文主要工作包含以下三个方面:(1)针对微博短博文空间向量表示的词向量维数过剩问题,通过Word2Vec中的神经网络模型,得到博文的词向量库,解决了TF-IDF算法中的词向量相关性弱的关键问题,实现了微博博文的向量化。(2)对于微博热度随着时间推移必将下降为零的现象。根据模拟退火算法的原理,设计了微博热度衰减模型,并通过大量实验分析,微博热度衰减模型准确率达80%以上,优于同类分析问题的水平。(3)针对模糊聚类分析算法的不足,设计了一种基于遗传退火的增量式模糊聚类算法,可以随时对新产生微博博文进行聚类分析。最后用平均查准率、平均查全率和平均F值对算法进行评价分析,准确率达到了82.3%,高于目前其他关于微博话题提取的准确率。最后,针对大量新浪微博数据,通过分词、博文向量化、加入时间和相关属性等数据预处理操作,形成微博向量,并通过改进的遗传聚类算法分析挖掘微博热点主题。同当时时间段的微博热搜排行榜比较,在官方前8个热点话题中有6个和实验结果一致,正确率达75%以上。