论文部分内容阅读
网络社区是影响网络舆论的重要来源,对于网络社区文本信息的有效准确挖掘有助于网络舆情的监管。网络社区中的文本数据具有表述口语化、内容碎片化的特点,其中大量用户对热点话题的集中讨论极易造成数据不均衡现象的产生。这些特点影响文本数据挖掘的有效性和准确性。本文进行具有网络社区主题特征的语料收集用于模型训练。对网络社区文本数据通过fuzzy-k-means聚类算法进行话题特征提取分析,设计了适合网络社区的舆情分类体系。为解决网络社区舆情主题数据分布不均衡现象,本文设计了一种基于随机森林引入代价敏感的文本多分类算法。算法使用朴素贝叶斯构造代价矩阵,选择基尼指数作为决策树节点选择算法,并在其中加入错分代价进行网络社区舆情数据的主题分类。为验证算法效果,选取具有代表性的两个解决数据集不均衡问题的改进算法,数据层面的基于SMOTE过采样的SVM算法和样本层面的基于Bayes统计推断推广的连续AdaBoost算法,分别从准确率、召回率和f-measure进行比较。实验结果表明,本文所提出的算法在保证模型整体性能的基础上,在不均衡样本集上的平均性能有大约8%的提升,能够改进样本不均衡的分类模型性能。在一定程度上解决数据不均衡的文本多分类问题,提高少数类样本的分类准确度。网络社区文本数据的分类能够将碎片化的信息进行主题分类整合,使得网络舆情监管人员掌握网络舆情内容主题分布动态。