【摘 要】
:
多标签文本分类是自然语言处理领域的一项重要任务,它旨在将一段文本内容分给一个或者多个类别。这一任务的难点主要在于标签的数量庞大,并且标签呈现出不均衡的长尾分布,即大量尾标签的出现次数远远少于小部分的头标签。尽管相较于传统的方法,基于神经网络的方法能够提取到更丰富的文本特征,并提升分类的性能。但是这些方法通常假定标签之间相互独立,不能充分利用标签中包含的信息,例如标签之间的相关性。然而标签之间通常具
【基金项目】
:
国家自然科学基金项目(61822601,61773050,61632004); 北京市自然科学基金资助项目(Z180006); 国家科技研发计划资助(2020AAA0106800,2017YFC1703506); 中央高校基本科研业务费专项资金资助(2019JBZ110);
论文部分内容阅读
多标签文本分类是自然语言处理领域的一项重要任务,它旨在将一段文本内容分给一个或者多个类别。这一任务的难点主要在于标签的数量庞大,并且标签呈现出不均衡的长尾分布,即大量尾标签的出现次数远远少于小部分的头标签。尽管相较于传统的方法,基于神经网络的方法能够提取到更丰富的文本特征,并提升分类的性能。但是这些方法通常假定标签之间相互独立,不能充分利用标签中包含的信息,例如标签之间的相关性。然而标签之间通常具有层级关系,并且文本中也包含内在的层级结构,如句法树。因此如何在多标签分类中充分地学习到文本层级和标签层级之间的映射关系极具挑战。考虑到双曲流形的树相似性与具有复杂层级结构的多标签文本数据相匹配,双曲流形表征对文本和标签层级结构有更好的归纳偏置。为了利用双曲流形的表征能力进行多标签文本分类,本文提出在同一个双曲空间中学习文本和标签的双曲流形表征的方法,具体从以下两部分展开:(1)基于双曲空间的庞加莱球模型,本文首先提出了庞加莱探针,用于验证双曲流形表征的学习方法能够从文本中捕获到更丰富的层级特征。本文分别在句法树和情感分析两项探针任务上研究了预训练语言模型的语境化词向量,并且用可视化的方法直观地展示了通过庞加莱探针得到的文本的双曲流形表征。在这两项探针任务中,庞加莱探针都能比欧氏探针更加精确地还原出文本中的层级结构。(2)为了联合文本与标签的信息,本文提出了用于多标签文本分类的双曲交互模型(Hyper IM)。通过学习文本和标签的双曲流形表征,双曲交互模型可以更好地利用其中保留的层级信息。双曲交互模型通过文本和标签的双曲流形表征之间的细粒度交互,得到标签适应的文本表示,并预测文本所对应的标签。此外,本文还提出了用于提升模型延展性的部分交互机制。在三个多标签文本分类基准数据集上的大量实验表明,双曲交互模型可以充分地捕获文本和标签之间的结构关系,并相较当前最先进的方法进一步提升多标签文本分类的性能。
其他文献
语法纠错(GEC)一直是自然语言处理的重要研究任务之一,该任务的目的是对文本中的错误语法进行检测并纠正。随着深度学习的发展以及数据的爆炸性增长,翻译模式成为GEC任务的首要选择,序列到序列(seq2seq)模型在GEC任务中得到了广泛应用。相较于英文等字母语言,中文有许多不同的特性。并且,中文GEC任务的相关数据集较少,这限制了seq2seq模型的学习能力。针对以上问题,本文在现有的研究基础之上,
学术界和工业界的信息化和网络化发展如火如荼。各行各业都围绕大数据开展了深刻的变革。其中位置信息在交通运输场景,个人移动场景,企业设备管理的重要性日益凸显。在户外,车辆获取位置信息的通用方案为使用全球导航卫星系统(Global Navigation Satellite System,GNSS)和惯性导航系统(Inertial Navigation System,INS)的组合系统。其中,GNSS是空
本文对体医融合背景下老年人体育锻炼行为特征和效果进行综述,发现通过体育锻炼可以改善老年人的身心健康和提高社会适应能力,并得出如下启示:多元主体参与,构筑"老年人体医融合环境";加强老年体医融合复合型人才的培养,创建老年人体医融合服务团队;加大宣传和健康教育,提高老年人体育锻炼意识;充分利用互联网和大数据等先进技术监测老年人体质和锻炼水平。
随着计算机技术的发展,数字图像在人们生活中被广泛使用,同时数字图像中潜在的安全问题也日益严峻。篡改的数字图像通过网络等途径的传播会影响人们对于事物的判断,甚至是给经济和社会秩序造成危害。为了能够检测篡改的数字图像,保护信息安全,数字图像取证技术在近些年得到了很大的发展。与此同时,为了探究取证技术的安全性,促进取证理论的完善,数字图像反取证研究也得到了广泛的关注。本文针对数字图像对比度增强反取证这一
三元组抽取能将非结构化的文本以结构化的形式进行表示,是自然语言处理中的一项重要研究内容。对裁判文书进行三元组抽取,对于上游构建知识图谱、建立检索系统、自动问答系统等起着关键的作用,能够帮助司法系统进行知识表达和知识推理,推进智慧司法的建设。裁判文书文本中实体间难以用预定义关系集来限定,且缺乏大规模的标注语料,导致传统通过训练分类器或神经网络模型的实体关系抽取方法不适用。而目前常见的开放式中文三元组
在传统区块链中,所有用户的交易信息都是公开的,存在隐私泄露的风险。随着区块链技术的发展,逐渐增强了区块链的匿名性,但是匿名性的增强带来了难以审计和监管追责的问题。与此同时,随着区块链越来越广泛的应用,使其在信息监管、隐私保护、数据更新等方面存在切实的编辑需求,例如修改错误数据、更新过期信息等。因此,本文围绕可审计的区块链隐私保护技术和可编辑区块链技术进行讨论,主要研究工作有以下两点:(1)为了在保
文本分类是自然语言处理中一个基础且至关重要的任务,在情感分析、舆情监测、新闻过滤等方面有广泛的应用。传统的卷积神经网络、循环神经网络等模型缺乏获取非连续长距离语义信息的能力,而且无法处理文本的语义树、句法树等非线性结构数据,最近提出的图卷积文本分类模型可以较有效地解决上述问题。但现有的图卷积文本分类模型还存在以下不足:(1)现有的单通道空域图卷积模型未能有效地利用文本的语义、句法等隐含信息,限制了
在科学技术发展不断推进的同时,电子设备的应用也更加广泛,图像已经成为数字信息时代中的重要资源,但是随着编辑软件的普及使得图像的真实性面临巨大风险。近几年来,政治时事、军事国防、学术研究等领域的图像造假事件屡见不鲜。为了打击不法分子的图像篡改行为,数字图像取证技术开始逐渐发展起来。操作取证是图像取证领域的重要分支,其中对比度增强操作是最为普遍且高效的图像编辑方法,并且常被篡改者用来消除伪造图像中视觉
激光选择性熔化(Selective Laser Melting,SLM)技术是一种新型的增材制造技术,其成型原理是利用高能量密度的激光输入能量,根据预先设定的轨迹进行扫描,使粉末材料有序熔化,形成熔池,再经冷却凝固成型,SLM技术由于可以快速成型出力学性能良好,且具备较高致密度的复杂金属零件而得到快速发展,但该工艺仍然存在一定缺陷,如难以成型较大尺寸零件,且成型件内部存在残余应力以及翘曲变形程度大
图像数据在人们日常的沟通和交流中不可或缺,然而图像在传输和接收等过程中,往往会因为硬件设备等原因受到噪声的干扰,这会降低图像的质量,并影响后续对图像的处理与分析。因此,去除图像噪声至关重要。目前,如何在去除噪声的同时保护图像的纹理细节仍是亟待解决的问题。近年来,稀疏表示理论的兴起使图像去噪取得了较大的突破。因此,本文以稀疏表示理论为基础,对稀疏变换学习图像去噪算法以及组稀疏残差约束图像去噪算法进行