论文部分内容阅读
随着网络设施的不断完善,移动应用等技术的快速发展,微博已经从最初满足公众社交需求的信息传播平台逐渐演变成大众化的舆论平台。微博舆情的突发性和裂变式信息传播的特性使其成为社会舆论快速的反映形式,并在一定程度上引导着舆论事件的走向。微博舆情对社会各领域的影响与日俱增,但由于其文本的特殊性以及受众多因素影响呈现出非线性复杂的变化。因此,如何高效、准确的从微博数据中发现并提取有意义的热点话题并对其发展趋势进行快速、准确的预测是一个很有价值的研究课题。本文对微博舆情的热点发现和话题发展趋势的预测问题进行研究,提出了一种基于词对主题模型(Biterm Topic Model,BTM)的微博舆情热点发现方法。首先,对微博文本采用BTM建模,改进TF-IDF(Term Frequency-Inverse Document Frequency)特征权重算法,以适应微博短文本的特征。并将BTM建模结果与改进的TF-IDF加权算法结合对微博文本进行向量表示,在考虑文档概率分布的同时融合了文档语义分布特征。有效解决了传统模型在文本建模中所面临的高维度和稀疏性问题,然后采用K-means聚类方法发现热点话题。在话题发展趋势预测方面,本文采用微博话题的博文总数作为衡量话题发展趋势的指标。考虑话题发展的复杂性和非线性的特点,采用模糊神经网络来预测微博话题的发展趋势。并以改进的粒子群优化算法(Particle Swarm Optimization,PSO)对模糊神经网络的参数进行优化。PSO算法在全局寻优和快速收敛方面具有良好的性能。模糊神经网络在处理非线性、模糊性等复杂问题上有很大的优越性,通过与改进的PSO算法的融合能够更好的发挥模糊神经网络的性能,有效解决微博舆情趋势预测中遇到的算法收敛速度慢、易陷入局部最优的问题。通过对新浪微博数据集的对比实验验证了本文所提方法在微博舆情热点发现和趋势预测中的有效性。本方法能够有效解决传统模型在文本建模中所面临的高维度和稀疏性问题,显著改善热点话题的发现质量。有效解决了微博舆情趋势预测中遇到的模型参数复杂、易陷入局部最优的问题,提高了微博舆情发展趋势预测的准确性。