【摘 要】
:
多语言混合文本情感分析旨在通过收集人们在社交媒体上所表达的观点、态度及情感的文本进行识别与分类的一种研究。多语言混合文本普遍存在于欧洲、非洲以及东南亚等地区,使用者通常会把该地区的母语和主要通用语言(比如英语)结合起来使用,从而出现了多语言混合文本。混合文本类型的交流方式不仅轻松方便,而且减轻了人们的语言知识负担。然而,对于非当地母语使用者来说,理解这些多语言混合的文本是相当困难的。由于多语言混合
论文部分内容阅读
多语言混合文本情感分析旨在通过收集人们在社交媒体上所表达的观点、态度及情感的文本进行识别与分类的一种研究。多语言混合文本普遍存在于欧洲、非洲以及东南亚等地区,使用者通常会把该地区的母语和主要通用语言(比如英语)结合起来使用,从而出现了多语言混合文本。混合文本类型的交流方式不仅轻松方便,而且减轻了人们的语言知识负担。然而,对于非当地母语使用者来说,理解这些多语言混合的文本是相当困难的。由于多语言混合文本不遵守正式的语法规则、音译规则、句式结构等原因,使得一般领域(主要是英语)的情感分析方法不能适用于多语言混合文本的情感分析任务。此外,多语言混合文本数据集一般具有规模小、稀疏、噪声等特点,给情感分析任务带来了新的挑战。因此,设计并实现能自动识别和分析隐含于多语言混合文本中情感极性的模型算法有重要的现实意义和应用价值。针对以上情况,本文提出基于自注意力增强模型来进行多语言混合文本的情感分析研究,该工作主要由两个部分组成:第一个部分,基于XLM-Roberta的自注意力机制模型,用于实现多语言混合文本的情感分析任务,首先将预处理后的文本输入到XLM-Roberta预训练模块进行编码,在提取XLM-Roberta的原始输出后,还将XLM-Roberta的最后一层隐藏状态的输出输入到Bi LSTM模块中,并对Bi LSTM的隐藏层的输出赋予自注意力权重,最后,实验将XLM-Roberta的原始输出与赋予自注意力权重后的加权表示向量输出连接起来,从而更好的进行分类任务的情感极性预测。因为XLM-Roberta的原始输出通常不能全面地总结输入的语义内容,大量的语义信息特征可由XLMRoberta的顶层隐藏层(也称之为语义层)学习得的。而自注意力权重赋予会考虑多个情感承重单元存在的情况,另外Bi LSTM可捕获双语单词序列和字符序列之间的长期依赖关系。第二个部分,基于自注意力增强CNN模型的混合语言情感分析的集成模型框架,是基于XLM-Roberta自注意力机制的设计原理进行改进的,通过把XLMRoberta的输出输入到基于自注意力Bi LSTM与CNN的集成模型中,其中子单词嵌入充分利用了卷积操作后的中间特征,利用矢量门控机制将子单词嵌入和双语预先训练的词向量输出的字符及词嵌入结合起来训练模型。其中CNN在某种程度上考虑了单词的顺序和单词出现的上下文情况,使用几个过滤器大小的想法是捕获不同长度的上下文。CNN模型在积极的和消极的推文上都表现得很好。自注意力模型在中性推文上表现优于CNN模型,但在正样本和负样本上表现不是很理想,两者刚好互补,这也是选择集成的主要原因。本文设计的模型在德拉维语和Sentimix两个公开的数据集上均取得最好的效果。在印地语-英语、西班牙语-英语、玛拉雅拉姆语-英语和泰米尔语-英语上分别取得了0.862、0.846、0.776和0.77的F1值,是目前现有模型在这两个数据集上的最好的成绩。
其他文献
解毒飞灰用于制备混凝土自保温砌块,既缓解了飞灰对环境的压力,又对推进墙材革新与建筑节能工作产生积极作用。通过化学发泡、物理发泡制备混凝土自保温砌块基材技术路线均不可行。而在解毒飞灰中掺加超轻集料玻化微珠制备干表观密度700~1000级解毒飞灰轻质砂浆用于自保温砌块基材,抗压强度分别达到A3.5级、A5.0级和A7.5级;可以制备密度等级600~800级、强度等级MU3.5、MU5.0的实心自保温砌
目的:在2022年北京冬奥会之际,许多运动员将在高水平的生理和心理压力下取得成功。这可能会进一步增加竞争前焦虑,并导致整个比赛期间睡眠受损的风险增加,从而损害表现。睡眠不佳的对策可能是减少比赛前焦虑对表现影响的有效工具,但运动员和教练并不常用。事实上,大多数关于精英运动员睡眠的研究都集中在更好地理解这个问题上,而相对较少的研究评估了潜在的解决方案。本研究的目的是确定睡眠前HRV生物反馈是否可以改善
中国式现代化是现代化理念与中国发展实际相结合的重要创新,既具有已经实现现代化国家的共同特征,也具有中国政治、经济、社会、文化、历史的特色,是中国全面建设社会主义现代化国家、全面推进中华民族伟大复兴的政治宣言和道路选择,对加速全球现代化进程将产生重要影响。中国全面建设社会主义现代化国家,要高质量实施科教兴国战略,提高国家发展的“硬核”实力。推进中国式现代化,要坚定不移地走中国特色社会主义道路,着力推
轮询是一种公共服务资源动态调度策略。因其自身具有有序接入和周期性访问控制方式使得轮询系统具有高可靠性的特点。轮询系统多被应用于无线通信网络、服务器集群负载均衡、智能交通调度、经济发展预测、工业生产调度、远程医疗和微震监测等领域。伴随顾客数量剧增的同时,网络平台、服务方式和新兴业务不断推陈出新,使得有限的服务资源与不断增加的顾客服务需求之间的矛盾越来越突出。特别是,通信网络中复杂的网络结构、超密集接
目的:探究室内总挥发性有机物(total volatile organic compounds, TVOC)短期暴露与年轻女性夜间心率变异性(heart rate variability, HRV)的关联。方法:采用定组研究设计,于2021年12月至2022年4月期间对北京市某高校50名年轻女性进行两次重复调查。每次调查期间,使用室内空气质量检测仪对研究对象室内TVOC浓度进行实时监测。室内温湿度
<正>目的:基于心电HRV时域、频域信号与脑电ERPs潜伏期与波幅信号的相关性分析,探究一次性力竭运动后心脑的交互作用。方法:21名体育专业男性大学生(19-21岁),身体健康,在运动跑台(h/p/cosmos)上进行一次性力竭运动后(Bruce Protocol),使用身体机能检测仪(Bodyguard 2)记录其运动后5-10min HRV时域SDNN、RMSSD信号,频域HF、LF、 LF/
近年来通信领域的技术发展日新月异,这些新的技术对人类产生了巨大的影响。人们在享受高性能微波/射频元器件带来便捷的同时,也对其有了更加严苛的性能要求。电磁逆算法(EM inverse algorithm)由于能根据微波/射频器件的电性能从而倒推出几何参数,在微波/射频领域得到了广泛的应用。然而电磁逆问题(EM inverse problem)大多有非线性和不适定性等特性,使得逆算法的求解代价极大。近
陶行知"爱满天下"的教育思想闪烁着宝贵的人性光辉,诠释着可贵的人文关怀。班主任工作应从其"爱满天下"的教育思想中汲取营养,将师爱践行在日常的班级工作中,即以大爱无痕、管理无为、育人无声的形式传承、发展和创新陶行知"爱满天下"的教育思想,以班主任广博的"爱"来塑造学生无私的爱,来提高班主任工作的实效。
为了更好的让相关企业了解房地产开发项目的风险,本文通过相关文献的梳理,选取BL房地产公司的W开发项目为研究对象,根据风险与风险管理的基本的概念、房地产开发项目在经营过程中的风险管理概念以及项目风险评价方法中的管理理论的研究,运用头脑风暴法对项目进行风险识别,运用SWOT分析法进行风险再识别,识别出项目全过程四个阶段的21个主要风险因素,通过AHP—模糊综合评价法对项目进行风险评价,最后根据评价结果
视觉显著性一直是神经生物学、认知心理学和计算机视觉领域的研究热点,它最初是预测人眼在场景中的注视位置,而研究人员发现人能够快速、准确的从海量视觉信息中定位出最感兴趣的部分区域,并可以自适应地将注意力集中在感兴趣区域。因此通过图像显著性检测算法模拟此机制并快速获取图像的显著目标,有效提高了图像处理的效率,从而被广泛运用于其他领域,如目标识别、图像分类等。从九十年代开始,诸多的图像显著性检测算法开始涌