基于改进半监督Tri-training的微博情感分类研究

来源 :安徽工业大学 | 被引量 : 0次 | 上传用户：arlunfly

【摘要】

：

【作者】

：

邓佳佳

【机构】

：

安徽工业大学

【出处】

：

安徽工业大学

【发表日期】

：

2023年01期

下载到本地 , 更方便阅读

下载此文赞助VIP

声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架

论文部分内容阅读

随着信息时代的飞速发展,聊天方式逐渐由线下向线上转变,使得各种线上社交媒体软件如雨后春笋般涌现,改变了传统交流沟通的方式。作为中文互联网社交媒体中极具人气的平台,微博以其操作简单、快捷和实时等特点受到广大网民的青睐。每天都会有数以亿计的微博评论在此平台更新,这庞大的数据中蕴藏着用户的意见观点以及丰富的情感信息,对于个人决策、企业经营战略调整以及政府舆情引导等都具有重要的意义。因此,挖掘分析微博数据的用户情感倾向性引起了学术界和产业界的广泛关注。目前,基于监督学习的微博情感分类取得了不错的分类效果,但其依赖于较多的有标签数据。在现实生活中,获取大量的有标签数据需要消耗大量的人力和时间成本,相反,未标记数据获取则较为简单。因此,本文选择少量有标记数据和大量无标记数据的半监督学习算法进行微博情感倾向性分析。同时,协同训练算法也是近年来半监督学习的研究热点。其中Tri-training算法是协同训练算法中较为重要且应用较为广泛的方法。基于此,本文使用半监督Tri-training算法进行微博文本情感倾向性分析。本文对新浪微博文本数据进行情感分析,针对微博文本已标注数据较少且标注成本高,文本噪声以及预测过程中产生标记噪声等问题,从模型的输入端和基分类器两个角度出发,提出了基于模糊支持向量机（Fuzzy support vector machine,FSVM）的Tri-training模型以及改进Tri-training的字词双通道模型两种模型,并在新冠疫情微博情感数据集上验证本文提出模型的有效性。研究成果如下:（1）提出一种基于FSVM的Tri-training模型针对Tri-Training模型在微博文本预测过程中未标记样本标记错误,加入训练集中迭代循环导致分类器分类性能下降的现象,为了减小文本噪声以及标签噪声对模型分类性能的影响,模型从分类器的方向入手,提出了基于模糊支持向量机的Tri-training模型。基分类器在支持向量机的基础上,采用模糊C均值聚类的方法,引入隶属度函数,对所有样本进行模糊化,最后使用Tri-training框架训练模型。实验结果表明基于FSVM的Tri-training模型能够有效减小噪声数据对模型分类性能的影响,提高了分类准确率。（2）提出一种改进Tri-training的字词双通道模型针对现有模型未标记样本添加标签过程中引入标签噪声的问题,改进Tritraining的字词双通道模型,从输入端进行改进,使用Word2Vec以及BERT模型分别抽取不同空间的样本特征,模型可以学习到相同样本不同特征之间的差异,更有利于微博文本情感倾向性的判断。基于相同数据集进行仿真实验,与基于FSVM的Tri-training模型相比,分类性能进一步提高。（3）基于新冠肺炎疫情微博的情感分类本文针对疫情期间微博文本的情感倾向性进行分析。根据提供的疫情微博公开数据集,对经过预处理以及词性标注的微博评论情感文本,将本文提出的两种模型应用到该数据集上,实验结果证明本文提出的两种模型的分类性能均优于其他几组对比模型,且改进Tri-training的字词双通道模型取得了最优的分类效果。通过本文提出的模型可以了解公众情感倾向,帮助政府进一步做好舆情引导工作。

其他文献

一种方便移动病人的转运板

期刊

一种屏幕转运包装盒

期刊

Optimal Four-impulse Ellipse-to-ellipse Coplanar Rendezvous

In this paper,the solution and distribution of optimal four-impulse coplanar rendezvous between two elliptical spacecrafts in low eccentricities are investigated.With reference frame built in a circul

会议

板件转运装置

期刊

马克思政治自由思想研究

学位

玻璃纤维膨体纱

＜正＞玻璃纤维膨体纱是一种新型结构的纱线。它是用空气喷射法,将连续纤维纱线（包括并捻纱或无捻粗纱）经过膨体变形喷咀,在喷咀里受到压缩空气形成的湍流冲击和扰动,使纱线中的纤维分离,体积增大而成为膨体纱。并捻膨体纱在体积增大时,形成丝圈,而无捻粗纱膨体纱几乎不形成丝圈,仅仅增加体积。（见本文后面照片1、2）由于这种加工特性,使膨体纱兼有连续纤维

期刊

数字化赋能公路货运行业的高质量发展

公路货运是与我们国家实体经济发展以及人民生活水平提升息息相关的重要运输生产活动，公路货运因其具有门到门直接运输、容易装卸车、适合近距离运输等特点，是目前中国物流产业的主要运输方式，有超过七成的货运量是通过公路运输来完成的。随着国家相关规范与鼓励性政策的推出，我国公路货运行业正向数字化转型升级迈进，政府鼓励整体产业积极拥抱数字新业态。公路货运数字化转型以客户需求为出发点和归结点，满足差异化服务和客户

期刊

八思巴字与中古蒙古语研究

学位

20世纪前半期日本军方对内蒙古游牧地区调查活动的研究——以察哈尔锡林郭勒地区为例

学位

异构Web服务组合兼容性判定和度量研究

随着服务技术和云计算技术的不断发展,互联网上的Web服务数量急剧增加,但单个服务的功能有限,无法满足复杂业务的需求,因此,必须采用组合的方式来提供完整的解决方案。但是在现实中的服务组合过程中,不同类型的服务间具有明显的异构特征,即便相同类型的服务也是由不同的服务提供商开发,这些服务在接口的语法、语义和行为协议方面也存在广泛的异构性,正是这些异构性造成虽有大量的可用服务,但这些服务之间并不能无缝组合

学位

基于改进半监督Tri-training的微博情感分类研究

其他学术论文