【摘 要】
:
在互联网日益发展的社会,人们愈发倾向于在社交媒体上发表看法和立场,由此而产生的社交媒体文本信息具有重要的研究价值。超大预训练模型GPT-2被提出以来,通过“提示”下游任务来训练语言模型的方法越来越受到研究工作者的关注,它用插入提示模板的方式,将文本分类任务转化为等效的完形填空任务。然而在立场检测任务的研究领域中,还没有基于提示学习的算法出现。立场是文本作者表露出的对于特定目标的认识或处理问题时所持
论文部分内容阅读
在互联网日益发展的社会,人们愈发倾向于在社交媒体上发表看法和立场,由此而产生的社交媒体文本信息具有重要的研究价值。超大预训练模型GPT-2被提出以来,通过“提示”下游任务来训练语言模型的方法越来越受到研究工作者的关注,它用插入提示模板的方式,将文本分类任务转化为等效的完形填空任务。然而在立场检测任务的研究领域中,还没有基于提示学习的算法出现。立场是文本作者表露出的对于特定目标的认识或处理问题时所持有的态度,现有的立场检测方法主要分为基于机器学习的方法和基于深度学习的方法。提示学习能将下游任务进行结构调整,可以更好地适配预训练模型。现有的提示学习方法无法直接应用到立场检测任务上,这主要是因为(1)现有的标签映射器大多根据人工经验来制定,而立场检测的文本短、内容少,难以总结领域知识,在跨目标任务上表现的尤为明显;(2)目标的背景知识对立场检测十分重要,同时提示学习框架缺少对知识的融合机制。因此,本文基于提示学习分别从同目标和跨目标两个角度,对立场检测任务进行研究。本文在同目标立场检测中提出了基于情感词典的标签映射器和基于同义词典的标签映射器。这两个标签映射器根据给定的标签词,使用情感词网络和同义词网络进行扩充,在模型的训练过程中,按照四种不同的策略进行调整,不断地优化标签映射关系,在模型学习到丰富标签词语意的同时,将标签词语意扰动降到最小,使下游立场检测任务更好地适配上游预训练模型。本文提出的方法策略在公开数据集Sem Eval16上的1macro和1avg指标相较于SOTA模型提升了10.04%和18.05%,在公开数据集P-Stance上的1macro和1avg指标相较于SOTA模型提升了7.80%和7.85%。针对跨目标立场检测任务,本文提出了基于提示学习融合目标概念语意的标签词映射修正方法。该方法借助外部概念图扩充了目标语意,连接不同目标之间的信息,使用提示学习将多个概念所产生的标签词进行融合,学习到关于目标完整的知识。此外,该方法结合句法依存等知识融入到文本表示中,对标签词进行修正,进一步优化了提示学习的分类。该方法在本研究制定的八个跨目标立场检测上的1macro和1avg相较于SOTA模型平均提升为13.19%和10.90%。
其他文献
目的系统性红斑狼疮(Systemic lupus erythematosus,SLE)患者体内存在免疫系统的缺陷,使其可能较健康人群更容易出现感染,同时SLE主要治疗药物是激素以及免疫抑制剂,这些药物可以直接抑制免疫细胞的活性,尤其是针对淋巴细胞的作用十分突出,在控制病情同时不仅降低了患者的免疫防疫功能,同时让感染的风险持续上升。感染是目前导致患者死亡的重要因素。通过分析淋巴细胞亚群和免疫球蛋白水
人脸性别识别是人脸属性识别领域最广泛应用的任务之一。它的核心工作就是利用人脸图像进行人脸性别属性的判定。随着深度学习领域的快速发展,在该任务上,基于卷积的深度神经网络已经达到了人类的识别精度。但是在低计算力的嵌入式系统上,神经网络在精度和速度上仍然难以达到可应用级别。为解决上述问题,本文针对人脸性别分类的特点,设计了对应的神经网络模型轻量化方法,提出了针对性别分类拓展的批块子类知识蒸馏算法和性别分
目的拷贝数变异是人类基因组的共同特征,在进化中发挥重要作用,促进种群多样性、某些疾病的发展,并影响宿主微生物群的相互作用。与单核苷酸多态性相比,拷贝数变异包含的核苷酸总数更多,出现的频率也更高,越来越多的人认为拷贝数变异是数量遗传变异的重要来源。我们探讨了FCGR3A(免疫球蛋白G Fc段受体IIIa)和FCGR3B(免疫球蛋白G Fc段受体IIIb)基因拷贝数变异与乙型肝炎病毒(HBV)感染后不
随着深度学习的发展,基于卷积神经网络(Convolutional Neural Network,CNN)模块和注意力机制的深度学习算法成为工业界与学术界的研究热点,其为不同领域中的任务都带来了新的解决方案。人群计数作为计算机视觉领域的研究热点,亦是如此。但现有算法所设计的CNN模块对小尺度目标不友好,也难以高效地提取多尺度特征,且所得特征图较为模糊;相应的注意力机制不够完善,仅关注空间维度的注意力
个性化广告推荐是广告生态系统中的重要环节。通过深度学习等技术可实现精准的个性化广告推荐,但此过程中收集和使用到的大量用户数据也不断引发着重大的数据安全和隐私泄露问题。随着各类隐私保护政策及法律法规的不断发布,以及个人用户隐私保护意识的不断提升,对隐私保护前提下的广告推荐方法的研究变得越发重要。为了在广告生态系统的数据交互过程中保护用户隐私,本文分析了广告生态系统中各主体(如用户、媒体、广告主等)的
目的:研究急性白血病患儿化疗后发生突破性真菌感染(Breakthrough Invasive Fungal Infection,BIFI)的危险因素,分析发生BIFI与患儿预后的相关性。方法:收集安徽医科大学第二附属医院儿童血液肿瘤科2015年1月至2020年8月收治的急性白血病患儿病例资料(年龄、性别、危险度等)和住院期间感染情况(广谱抗生素使用种类、粒细胞缺乏天数、红细胞输注、黏膜炎等),其中
近年来,数字水印技术作为多媒体版权保护和内容认证的有效手段,已经得到了广泛的研究和应用。传统的数字水印技术会对原始图像造成一定的损坏,然而在一些对数据要求比较严格的领域(例如法律、医学和军事领域),既需要数字水印技术来进行内容保护,又不允许对原始图像造成任何不可逆的损坏,所以产生了可逆水印技术。可逆水印技术不仅可以像其他水印技术一样完整的提取出水印信息,还能无损地将图像恢复到原始状态。可逆水印技术
目的探讨应用外源性硫化氢(Na HS)对肥胖小鼠体质量、脂代谢影响。方法选用雄性C57BL/6J小鼠建立DIO小鼠模型,模型构建成功后根据干预时间不同,将低脂饮食和高脂饮食喂养的的小鼠分别随机分为四组,在各组内根据选择的干预方式的不同再随机分为四个亚组,分别为低脂饮食对照组(A组)、饮食致胖(diet-induced obesity,DIO)模型对照(B组)、50umol/(kg·d)Na HS治
背景越来越多的研究将人类及其宿主细菌定义为一个整体,证明整体之间的交流超越了肠道,肠道中的微生物群与肝脏疾病、过敏、糖尿病、自身免疫性关节炎甚至神经系统疾病有关。肠道微生物群在调节大脑功能方面至关重要。出生后早期新生儿的大脑发育迅速,肠道菌群早期定植期间的不平衡,能够通过免疫反应和神经元分化的异常改变,影响的新生儿大脑的正常发育。短链脂肪酸,是肠道细菌通过底物发酵后产生的代谢物,可以明显有效地影响
形状在生活中处处可见。它是对象在移除了平移、缩放和旋转等效果后保留下来的几何属性,在医学诊断、生物信息学和生物识别学等科学领域中有着广泛的研究价值。弹性形状分析通过引入平方根速度函数作为曲线形状表示解决了形状分析中的三个关键问题,即形状表示、形状度量和形状配准,成为了分析曲线形状的有力工具。实际上,一些非曲线数据可以通过某种方式转换为曲线数据,从而利用弹性形状分析的优势解决原领域中的一些问题。因此