基于自注意机制的UGC视频评论情感分析

来源 :陕西师范大学 | 被引量 : 0次 | 上传用户:yiqikeren
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
随着移动互联网的普及,互联网浏览人数逐年快速增加,视频网站和相关应用快速崛起,用户创生内容(User Generated Content,UGC)视频呈爆发式增长。随着视频浏览人数的增多,每个视频都会产生大量评论数据,通过分析这些数据,可以指导视频创作者更好地创作视频内容,同时也可以指导平台提供更好的服务,还可以探究数据背后的文化现象,从而为相关文化政策的制定提供指导意见。情感分析作为自然语言处理领域的基本任务之一,同时也是大数据分析和人工智能等领域的关键技术,通过情感分析挖掘数据中的情感倾向,可以对数据分析提供重要的参考信息。现有的中文情感分析对象一般为微博等社交网络平台,以及淘宝、大众点评等服务类网站,针对视频网站评论数据的情感分析任务则鲜有学者和研究人员关注,其主要原因有:首先,传统视频网站以第三方视频内容为主,平台对于用户在本平台的交流服务支持较少,评论区用户留存率不高,而诸如抖音等新兴短视频平台的评论有字数限制,用户间无法充分的交流与表达情感;其次,视频评论为无标签数据,要对这些数据进行情感分析等监督学习类任务,需要对大量数据进行标注;最后,由于视频内容的特殊性,其用户之间很容易形成亚文化圈,在这些圈子中有其独特的语言表达方式,数据标注者在对此不了解的前提下无法稳定的生产高质量的标注数据,同时这些特殊的语言表达也为情感分析模型的语言理解能力提出了挑战。针对以上问题,本文从数据来源选择、人工情感标注、提出有针对性的情感分析模型三个方面来探索视频网站评论情感分析方法。在数据来源选择上,本文主要考虑了用户数量、用户活跃度、评论区用户留存量以及较少的评论内容限制四个角度选取视频平台。在经过综合考察后选取了 Bilibili(以下简称B站)作为评论数据的来源。通过爬虫技术爬取了一定量的评论数据,之后根据数据的特点制定了完整的数据清洗方案,并根据心理学相关理论对评论数据的情感倾向进行了标注。针对传统情感分析对文本中层次化信息提取能力不足的问题和OOV(Out Of Vocabulary)问题,本文提出了结合了基于字向量输入以及自注意机制(Self Attention,SA)和双向有序神经元长短时记忆(Bidirectional Ordered Neurons-LSTM,Bi-ONLSTM)网络结构的 SA-Bi-ONLSTM算法。该模型利用字向量来应对OOV问题,通过ON-LSTM模型中可以层次化的学习和保留文本中的关键信息,同时结合自注意机制强大的特征提取能力,提高了情感分析模型对Bilibili评论数据的分析精度。实验通过替换模型中各关键结构来设置对比实验模型,同时以经典长短时记忆网络(Long Short Term Memory Network,LSTM)模型为基准对比模型,通过实验以及实验的数据结果证明了以上算法的有效性。为了充分挖掘文本数据的特征,克服单一信息输入粒度带来的语义理解问题,本文提出了混合多粒度输入的自注意-有序神经元(SA-ONLSTM)网络模型。该模型对同一文本数据采用两种粒度的向量化手段,将混合了多种粒度的输入数据作为模型的输入量,再通过multi-head机制增加模型的厚度,使不同层的模型可以关注到文本中不同的特征。以上结构赋予了模型对于全局信息的特征提取能力。在实验中通过替换模型中的关键结构以及微调模型的输入结构来对比以上改进算法在B站评论情感分析任务中性能,实验结果证明了该算法在B站评论数据集上的可行性和有效性。
其他文献
随着全球变暖、冰川融化、沙尘暴等环境问题的出现,人们越来越重视环境问题。为了美好的生活生存环境,我们需要珍惜地球村,力所能及地保护环境,才能更好更久地发展。二氧化碳(CO2)浓度过高会导致温室效应,如何合理利用CO2是科学家们一直关注的问题。如果将CO2通过化学反应转化成其他有价值的物质,这样既能够缓解环境问题,也能够获得其他有利用价值的分子。在CO2催化转化过程中,有机碱发挥着关键作用。其中,具
有机荧光分子不仅可以作为荧光染料用于油墨等精细化工领域,还可以应用于化学传感、荧光探针、有机场效应晶体管和生物成像等新兴领域。通过共价有机合成方法制备的荧光功能分子稳定性好,但通常存在合成路线长、收率低等缺点。而基于非共价相互作用的超分子自组装的方法往往能以几乎定量的收率制备得到目标荧光功能分子,但是,与共价有机合成方法制备的荧光功能分子相比较,通过非共价相互作用自组装得到的荧光功能分子的稳定性相
大气风场与人们的生活息息相关,准确测量大气风场的变化,对于机场风切变探测、气象预报、风能利用以及航天制导等领域都有着不可估量的作用。相干激光测风雷达因为其晴朗天气下探测能力突出、高时间分辨率与高空间分辨率、高测量精度等优势成为了测量大气风场的主流手段。由于相干测风激光雷达的回波信号非常微弱,信号处理方法的好坏对于测风雷达的性能有决定性的影响。本文就相干激光测风雷达信号处理过程中的多普勒频移频率校正
本文研究的是一类耦合的非线性项带导数的薛定谔方程在周期边界条件下解的长时间稳定性问题,其中(V1,V2)∈Θm[Θm参考(2.6)式]。本文的主要结论是:对于几乎所有的(V1,V2)∈Θm,如果上面方程的初值在指标为s的索伯列夫范数下小于ε(0<ε≤1),那么相应的解满足其中B为给定的正数。为了证明上面的结论,首先利用傅里叶变换把上面方程转化为无穷维的哈密顿系统,由于偏微分方程的非线性项带有导数,
交通运输业、民用工业领域及制造业的飞速发展对润滑油的性质提出了更为严苛的要求,同时低碳发展的战略让“CO2零排放”的生物质平台分子的高效转化燃料和高价值化学品成为了研究亮点。利用廉价的生物质资源绿色合成生物质基润滑油基础油和柴油,是颇具竞争力的研究路线。本论文的主要研究内容包括:(1)受梳型PAO长支链烷烃结构的启发,我们开发了一种以油脂衍生的脂肪酸甲酯(FAME)为原料制备T型结构全碳链的低粘度
哈伯(Haber-Bosch)法合成氨是由氢气和氮气在高温高压和催化剂存在下生产NH3的工业过程,被认为是20世纪最重要的发明之一,为世界人口增长做出了巨大贡献。现有的Haber-Bosch合成氨工业是一个高能耗过程,每年约消耗全球能源供应总量的1%~2%。开发温和条件下的合成氨过程是研究人员长期以来不懈追求的目标,而这一目标的实现高度依赖于低温高活性的新型催化剂的开发。理想的催化剂一方面应该具有
C4=催化裂解生成C3=是低值烃高值化利用的重要途径。高选择性生成烯烃类产物,尤其是目标产物C3=,同时减少非烯烃类副产物的产生,是C4=催化裂解技术发展的重要方向,其核心在于高效催化剂的研制。本论文发展了失活钛硅分子筛TS-1作为催化剂高效催化C4=裂解制C3=的方法,探索了裂解活性中心并对其酸性质加以调控,进一步引入载体,发展成为了一种新型高效的C4=裂解催化剂。研究内容主要分为以下三方面:1
银纳米团簇因具有独特的荧光性能、优异的生物相容性及良好的水溶性而受到广泛关注。而多螯合点聚合物模板可以将银纳米团簇稳定在聚合物链间,防止其发生聚集进而控制其尺寸,提高其溶液稳定性;同时模板在很大程度上也决定了银纳米团簇的光学特性。本文以新型多螯合点聚合物为模板,可控制备了具有较高发光效率的荧光银纳米团簇,同时研究了该团簇在光学检测以及生物成像等领域的应用。结合了稳态荧光光谱、时间分辨荧光(TCSP
随着人们对健康生活的重视,新鲜果蔬的需求量也越来越大。然而我国果蔬贮藏技术起步较晚,采后保鲜技术发展落后,导致采后果蔬损失巨大。据统计,国内新鲜果蔬因腐烂造成的损失达20%,比发达国家高3倍。因此,发展新型果蔬贮藏保鲜技术迫在眉睫。开发新型贮藏保鲜技术不仅可以挽回因腐烂变质造成的损失,提高经济效益,还能丰富老百姓的水果篮,从而造福广大人民群众。加压贮藏是一种新型保鲜技术,通过施加一定的气体压力,使
本试验以不同卫生环境构建仔猪免疫应激模型,探究不同卫生环境下复合中草药制剂对断奶仔猪生长性能、抗氧化、免疫和肠道健康的影响。试验采用2×2因子设计,即卫生环境(干净环境、脏环境)和饲粮处理(对照组、添加组),对照组仔猪饲喂玉米-豆粕型基础饲粮,添加组仔猪饲喂在基础饲粮中添加复合中草药制剂的试验饲粮(商品名为“山华素”,含黄芪多糖、山茱萸和黄柏提取物,黄芪多糖含量为240 mg/g)。试验选取72头