论文部分内容阅读
随着信息时代的飞速发展,聊天方式逐渐由线下向线上转变,使得各种线上社交媒体软件如雨后春笋般涌现,改变了传统交流沟通的方式。作为中文互联网社交媒体中极具人气的平台,微博以其操作简单、快捷和实时等特点受到广大网民的青睐。每天都会有数以亿计的微博评论在此平台更新,这庞大的数据中蕴藏着用户的意见观点以及丰富的情感信息,对于个人决策、企业经营战略调整以及政府舆情引导等都具有重要的意义。因此,挖掘分析微博数据的用户情感倾向性引起了学术界和产业界的广泛关注。目前,基于监督学习的微博情感分类取得了不错的分类效果,但其依赖于较多的有标签数据。在现实生活中,获取大量的有标签数据需要消耗大量的人力和时间成本,相反,未标记数据获取则较为简单。因此,本文选择少量有标记数据和大量无标记数据的半监督学习算法进行微博情感倾向性分析。同时,协同训练算法也是近年来半监督学习的研究热点。其中Tri-training算法是协同训练算法中较为重要且应用较为广泛的方法。基于此,本文使用半监督Tri-training算法进行微博文本情感倾向性分析。本文对新浪微博文本数据进行情感分析,针对微博文本已标注数据较少且标注成本高,文本噪声以及预测过程中产生标记噪声等问题,从模型的输入端和基分类器两个角度出发,提出了基于模糊支持向量机(Fuzzy support vector machine,FSVM)的Tri-training模型以及改进Tri-training的字词双通道模型两种模型,并在新冠疫情微博情感数据集上验证本文提出模型的有效性。研究成果如下:(1)提出一种基于FSVM的Tri-training模型针对Tri-Training模型在微博文本预测过程中未标记样本标记错误,加入训练集中迭代循环导致分类器分类性能下降的现象,为了减小文本噪声以及标签噪声对模型分类性能的影响,模型从分类器的方向入手,提出了基于模糊支持向量机的Tri-training模型。基分类器在支持向量机的基础上,采用模糊C均值聚类的方法,引入隶属度函数,对所有样本进行模糊化,最后使用Tri-training框架训练模型。实验结果表明基于FSVM的Tri-training模型能够有效减小噪声数据对模型分类性能的影响,提高了分类准确率。(2)提出一种改进Tri-training的字词双通道模型针对现有模型未标记样本添加标签过程中引入标签噪声的问题,改进Tritraining的字词双通道模型,从输入端进行改进,使用Word2Vec以及BERT模型分别抽取不同空间的样本特征,模型可以学习到相同样本不同特征之间的差异,更有利于微博文本情感倾向性的判断。基于相同数据集进行仿真实验,与基于FSVM的Tri-training模型相比,分类性能进一步提高。(3)基于新冠肺炎疫情微博的情感分类本文针对疫情期间微博文本的情感倾向性进行分析。根据提供的疫情微博公开数据集,对经过预处理以及词性标注的微博评论情感文本,将本文提出的两种模型应用到该数据集上,实验结果证明本文提出的两种模型的分类性能均优于其他几组对比模型,且改进Tri-training的字词双通道模型取得了最优的分类效果。通过本文提出的模型可以了解公众情感倾向,帮助政府进一步做好舆情引导工作。