【摘 要】
:
近年来,机器学习发展迅速,尤其是在自然语言处理领域取得了重要的突破。文本分类是自然语言处理中的一个重要研究领域,其中层级多标签文本分类发挥着重要作用,广泛应用于许多任务中。在层级多标签文本分类任务中,层级结构定义了标签之间的隶属关系,这使得标签之间不再独立,增加了文本分类的难度。层级多标签文本分类任务通常会面临文本特征提取困难、标签的层次结构信息无法被有效利用等挑战,为了提升层级多标签文本分类任务
论文部分内容阅读
近年来,机器学习发展迅速,尤其是在自然语言处理领域取得了重要的突破。文本分类是自然语言处理中的一个重要研究领域,其中层级多标签文本分类发挥着重要作用,广泛应用于许多任务中。在层级多标签文本分类任务中,层级结构定义了标签之间的隶属关系,这使得标签之间不再独立,增加了文本分类的难度。层级多标签文本分类任务通常会面临文本特征提取困难、标签的层次结构信息无法被有效利用等挑战,为了提升层级多标签文本分类任务的分类精度,本文设计了一种基于潜在空间的层级多标签文本分类方法(Hierarcial Multi-label Text Classification Based Label Space,LS-HMTC)和一种基于图卷积神经网络的层级多标签文本分类方法(Hierarcial Multi-label Text Classification Based Graph Convolution Neural Network,GCN-HMTC)。LS-HMTC利用标签空间降维(Label Space Dimension Reduce,LSDR)技术将标签空间嵌入到潜在空间,GCN-HMTC将每个标签看作独热向量,通过图卷积神经网络学习每个标签的标签嵌入。本文主要的研究工作如下:1.LS-HMTC首先使用了两个编码器提取到包含丰富语义信息的文本特征。在多标签分类任务中,通常使用标签空间降维技术来解决标签空间稀疏等问题,LS-HMTC将标签空间降维技术用于层级多标签分类任务中,同时,为了避免显式标签空间降维带来的弊端,LS-HMTC在训练过程中学习解码矩阵,随后利用层级多标签文本分类任务中的标签层次结构信息,显式编码节点之间的联系,调整输出概率。最后通过实验证明,LS-HMTC在层级多标签文本分类任务中是有效的。2.GCN-HMTC首先使用编码器获得每个单词的词嵌入,词嵌入中包含了上下文信息。然后,构造了标签节点和单词节点的异构图,通过连接标签-标签节点、标签-单词节点、单词-单词节点,建模了标签、单词之间的联系,利用图卷积神经网络强大的传播能力,获得每个标签的标签嵌入,随后利用注意力机制根据不同单词对每个标签的贡献,聚合得到最终的分类向量进行分类。最后通过实验证明,标签嵌入模块在GCN-HMTC中是不可缺少的,GCN-HMTC在层级多标签文本分类任务中是有效的。
其他文献
蓝莓僵果病是一种由真菌导致的病害,常常发生在蓝莓生长过程中,严重时,会导致蓝莓产量大幅下降,造成重大经济损失。蓝莓感染僵果病主要分为两个阶段:原发性感染阶段和继发性感染阶段,掌握蓝莓感染僵果病的具体阶段有助于采取适当的措施,减少僵果病对蓝莓的损害,降低经济损失。尽管深度卷积神经网络在农业疾病检测领域表现出了很好的效果,但由于需要大量的参数和计算,它在移动和嵌入式设备上的应用存在问题,而且,蓝莓僵果
随着人工智能和大数据的发展,基于深度神经网络的文本分类技术在现实中的应用越来越广泛,比如情感分析、新闻分类、垃圾邮件分类等。这些文本分类模型在遇到对抗攻击时,其性能会显著下降并引起了人们的关注和研究。通用对抗攻击只需向任意输入添加一个固定的扰动序列,就可以成功地愚弄文本分类模型,而且可以在短时间内对其发起大规模攻击。现有的通用对抗攻击会无差别地攻击所有类别的文本样本,这很容易引起防御系统的注意,同
随着社交平台的迅速崛起,各种短文本信息丰富着人们的生活,如微博、知乎和推特等,用户常以文字为主体分享自己感兴趣的事物。因此学者们可以从中发现用户感兴趣的主题信息,并将它们应用于实际项目中。目前大多数主题模型都是针对长文本数据,而在短文本的应用中,由于文本稀疏问题导致实验效果并不理想。为了克服短文本数据集的稀疏性问题,双词主题模型(Biterm Topic Model,BTM)将文本中提取出的共现词
随着互联网技术的急速发展,人们迎来了大数据时代,数据类型更为复杂,体量更为庞大。大数据不仅为企业带来了多样化的商业价值,同时也为存储行业带来了巨大的挑战。因此,以分布式存储技术为核心的云存储,以效率高、收费低的优势占据存储市场。但无论是当前主流云存储系统,还是传统的数据存储系统,都无法避免存储大量冗余数据的情况,尤其在归档或备份系统中,冗余数据能占到存储总量的70%,冗余存储极大地提升了存储成本。
由于测量误差及各种干扰因素的客观存在,数据采集过程中会不可避免地引入各种形式的噪声。为了抑制噪声的影响,本文从以下两个角度展开了图像鲁棒特征的研究。其一是针对特定图像设计鲁棒特征,利用其特有的性质消除或减少噪声的影响。其二是设计通用的图像模型,学习图像数据的鲁棒表示特征,从而重建无噪声图像或目标图像。基于这两个出发点,本文对主成分分析(Principal Component Analysis,PC
良好的情绪调节,是个体适应现代社会的重要先决条件,特别是对于初中阶段的女生而言,她们时常出现一些情绪问题。为此,加强培养学生智慧调节情绪的能力具有十分重要的现实意义。基于此,本文结合个案,多管齐下进行分析和探究,提出初中女生智慧调节情绪问题的策略,以供借鉴与参考。
利用三次经济普查数据、上海市统计局数据及教育部开发的"全国中小学生校外培训机构管理服务平台"等搜集上海在校中小学生数及校外培训机构数的变化;利用问卷星采集学生、家长及培训机构等关于校外学习的看法等。从调查发现,从2004年到2018年,上海在校中小学生总数保持平稳,而校外培训机构数有一个持续上升的过程,尤其是2008年到2013年,校外教育培训机构总数上升133.45%,是一个井喷式发展。同时发现
该项目以某优选的生鲜团购配送为例,在考虑各项约束的基础上,以生鲜配送中心点到各个小区的总配送路程最小为宗旨,利用回溯法选优搜索出生鲜配送的中心小区,配送中心选址可有效地降低社区团购的运营成本及物流度等等。然后就小区的生鲜团购配送的路线方面,结合实际,采用模拟退火算法建立模型,求解出生鲜配送的最优路径。优化后的路线能够提高配送效率,节省配送费用,节约人力、物力、财力等资源。
随着互联网的快速发展,不断涌现出诸如数据流处理、增强现实等对计算资源以及时延能耗要求比较高的应用。用户设备(User Equipment,UE)由于本身物理资源的限制,通常以高时延和高能耗为代价来处理这些任务。移动边缘计算(Mobile Edge Computing,MEC)的出现,不仅为UE提供了低延迟的计算服务,还延长了UE的电池寿命,但是MEC服务器的计算资源通常是有限的,如何高效地分配UE