基于微博评论的情感分析方法研究

来源 :延边大学 | 被引量 : 0次 | 上传用户:jingbao0804
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
微博是国内使用用户较多的社交平台之一,它具有信息传递速度快、覆盖方面广的特点,人们在微博上可以针对某一事件进行评论,以此来表达自己的情感态度。通过对用户评论信息情感倾向的判断,不仅有利于管理部门的监控,对于谣言制止、舆情导向、市场营销等都具有非常高的应用价值。微博评论多以文本的方式呈现,并且规定评论字数不多于140个字符,属于短文本。对于微博评论这种短文本数据存在以下问题:首先,篇幅较短,导致可以捕获的有效信息较少,从而造成样本特征稀疏,在特征抽取方面很难做到精准抽取;其次,微博评论属于自由发挥,对于语法没有要求,因此很多评论语句是不符合语法规定的,这对于文本分类也增加了一定的难度;最后,评论中存在大量的流行词语,网络用语等,并且更新速度快,这导致了文本噪声的增多。本文针对以上问题对微博评论进行情感分析方法研究。主要工作内容如下:(1)采用爬虫技术在新浪微博进行评论数据爬取,并进行数据预处理,包括过滤无效字符、分词、去除停用词等操作,最后形成可用于实验的微博评论语料资源。(2)采用Bert模型对文本进行向量化表示,它能够充分考虑词的左右两侧的信息,从而获得更深层次的含有上下语义信息的向量表示(3)根据微博评论数据具有涵盖词汇杂,语法特征不明显等特点,本文提出基于TextCNN-BiLSTM的二输入的Adaboost模型。利用Adaboost算法使得进行局部特征提取的TextCNN模型与进行全局特征提取的BiLSTM模型并行处理评论数据,通过两种模型相互的反馈调节,调整错误分类样本,最终得到强分类器,以加强分类效果,提高分类准确度。同时为了降低噪声影响,在TextCNN模型基础上引入了注意力机制。(4)将本文提出的分类模型与多组深度学习分类模型进行对比验证,并对实验结果进行分析总结。
其他文献
学位
学位
为了改善混杂钢纤维高强再生混凝土(Hybrid steel fiber high strength recycled concrete,简称HSFRHSRC)受弯构件的抗裂性能,本文对HSFRHSRC试块进行了基本力学性能试验,分析混杂钢纤维(Hybrid steel fiber,HSFR)体积掺率对高强再生混凝土(Highstrengthrecycledconcrete,HSRC)力学性能的作用
学位
自组装的研究为小分子合成多功能纳米结构提供了一条很有吸引力的途径。结合光敏剂本身具有的光物理性质,以及金属离子的生物成像等功能,通过分子间非共价键的作用,组装形成具有多功能性的纳米材料。在目前应用的光敏剂中,卟啉由于其独特的分子结构,具有特定的光物理性质,而被广泛的应用到肿瘤的光疗中。以卟啉为基础的金属有机纳米颗粒因其在光动力治疗(PDT)和光热治疗(PTT)方面表现出令人满意的的治疗效果而受到人
学位
学位
洪水灾害生态风险评价以洪水灾害为风险源,把生态系统作为风险受体,体现了洪水灾害与生态环境之间的联系。图们江流域内河网密集,水系众多。受多种因素影响,近年来频发洪水灾害,不仅对当地居民的生活产生了较大的影响,同时也对当地生态系统造成了一定的损失。本文从洪水灾害危险性、生态脆弱性和社会经济易损性三个方面来构建图们江流域洪水灾害生态风险评价模型,为研究区内防灾减灾和维护生态系统稳定提供依据。本文选择以降
猪圆环病毒4型(Porcine circovirus type 4,PCV4)作为一种新发现的猪圆环病毒,于2019年在我国湖南省的猪群中首次被检测到,由于发现时间较短,对其流行情况和致病性等相关信息还不明确。对收集的2016年至2018年内蒙古自治区51个猪场的1683份猪血清样本进行了 PCV4回溯性检测,PCR检测结果表明PCV4在猪群中总阳性率为1.6%(27/1683),PCV4在猪场水
集成光学是将大量光学元件集成与一块衬底上,经过集成能够大大的减小光电子系统的体积,使原先体积巨大的系统可以被缩小在几个平方厘米的尺寸范围内。除了小型化这个优点之外,与传统的集成电路等相比,集成光路还具备高性能,结构稳定等许多优点,拥有非常广阔的发展前景。作为很多光子学器件的基本元件,光波导是集成光路的十分重要的组成元素,它的作用原理与光纤类似,运用的是光学中的全反射原理,由材料中折射率较低区域围绕
学位