论文部分内容阅读
随着微博等新型社交媒体的不断发展,用户数量日益庞大,在微博等平台上每天都产生海量的新信息。通过微博大数据了解社情民意、关注舆情动向显得至关重要,这对于促进社会和谐稳定、掌握社会动态具有重要的现实意义。本文针对微博舆情信息的挖掘和分析中存在的问题展开研究,运用数据挖掘技术对舆情事件进行分析,从而能够有效地进行微博重大舆情事件的识别以及情感的分类。本文主要的研究内容和创新点如下:1.针对目标舆情事件数据所占比例小所导致的数据集不平衡问题,在基于主题表示LDA(Latent Dirichlet Allocation)模型与支持向量机SVM(Support Vector Machine)结合的半监督分类模型的基础上,在输入数据方面,提出了利用多种抽样方法来减少数据不平衡给后续算法带来的负面影响。在算法方面,提出利用多个单独的支持向量机构造的组合系统来降低单一分类模型给文本分类造成的误差,提高了对目标舆情事件识别的性能,并通过利用爬取得到的微博数据验证了上述方法的优越性。另外,这半监督组合模型能够充分利用大量未标记样本来改善分类器的性能,一定程度上减少了人工标注的精力。2.提出了一种混合式情感分类算法。该混合算法结合了无监督聚类算法K-means和监督学习算法对微博舆情进行情感分类。在比较常用的监督学习算法如决策树、随机森林在情感分类中的应用的基础上,本文研究分析了各算法的优缺点及对微博文本的适用性。提出的混合算法在二元情感分类方面,准确性上比常用的情感分类算法有1%的性能提高,AUC值有0.1的提高。为了证明该混合算法具有较好的可扩展性,本文在二元情感分类的基础上还进行了舆情情感的细粒度分类,从实验结果可以看出,当聚类数的选择达到最优的情况下,混合算法在准确性上比传统的分类模型有2%的提高。3.设计并实现了适应微博短文本特性的舆情分析系统。针对微博短文本特征向量表示时呈现的稀疏性及碎片化的特点,设计了基于Hadoop的微博短文本舆情分析系统,能够准确识别重大舆情事件,并能针对某一舆情事件进行相关的情感分析。本文通过对微博舆情挖掘分析技术进行研究,能够通过微博数据进行舆情事件的识别和情感分类,具有理论和应用的双重价值。