【摘 要】
:
文本分类是自然语言处理领域中最经典的任务之一。然而,在文本分类的具体应用中,数据集的分布方式常常具有不均衡性,这通常会导致传统的分类器更倾向于多数类文本,而忽略少数类文本的存在。实际上,有时对少数类文本的预测反而更有意义。因此,如何处理不平衡的文本数据集以减轻其偏态分布是一项至关重要的任务。首先,本文通过引入文本数据增强技术来处理类别不均匀的问题,即扩充少数类文本的数目使数据集更趋向于均匀分布。接
论文部分内容阅读
文本分类是自然语言处理领域中最经典的任务之一。然而,在文本分类的具体应用中,数据集的分布方式常常具有不均衡性,这通常会导致传统的分类器更倾向于多数类文本,而忽略少数类文本的存在。实际上,有时对少数类文本的预测反而更有意义。因此,如何处理不平衡的文本数据集以减轻其偏态分布是一项至关重要的任务。首先,本文通过引入文本数据增强技术来处理类别不均匀的问题,即扩充少数类文本的数目使数据集更趋向于均匀分布。接着,结合现实应用场景来进一步分析上述方法的性能,通过分析实验效果不佳的原因,引入特征选择来筛选出重要的文本特征,并结合上述数据增强技术有效改善模型的分类性能。具体地,本文的研究工作如下:(1)提出了基于数据增强的文本不平衡分类算法。该方法基于BERT模型框架,为了更清晰地对合成的文本进行建模并且降低无意义区域的影响,即文本被零填充到最大标准长度而导致的填充区域,利用构建的样本对形式,提出了一种多区域替换的数据增强方法TextCut。对于少数类及其配对文本,在特定层的隐藏空间中对少数类文本的多个小正方形区域进行采样,并将它们替换为从配对文本中截取的相应区域新生成的文本用于下游任务的训练。最后,添加具有噪声容忍度的反向交叉熵损失函数作为正则项,联合交叉熵损失函数同时对模型进行优化。在三个公开的不平衡文本数据集上验证了该算法可以进一步提高总体和少数类文本的分类性能。(2)提出了基于特征选择的警情文本不平衡分类算法。为了进一步验证上述不平衡分类算法的有效性,本文从同样具有样本分布不平衡特点的警情文本数据集出发,经过对实验结果和数据集的可视化分析以及传统的特征选择方法更易选择多数类文本的特征词的缺点,本文提出一种基于事后解释的特征选择方法PITFS来针对性地对文本筛选最重要的特征。该方法首先用训练出的分类器通过擦除N-gram词组的方式来获得文本特征的重要性排名,然后选择一定数量的最能代表文本信息的特征子集,再将其与上述不平衡分类的方法融合来重新训练一个分类器,并在训练过程中惩罚特征子集产生的不合理信息。最后,在警情文本数据集上的实验结果表明,该方法与其他特征选择的算法相比,有效改善了模型的分类性能。
其他文献
酒桌言语礼节是在酒桌交际场合使用的特殊的言语礼节类别,用餐时营造出和谐的氛围,以便于用餐者进行信息和思想情感交流。酒桌交际是指交际双方用餐时进行信息交换和情感交流的过程。酒桌交际是否成功取决于两个主要因素。首先,取决于参与者对行为规则和酒桌礼节的了解程度。每个参与者必须遵守交际人所代表的文化群体所认可的礼节,否则交际中断。其次,交际人的言语行为应符合其交际目的,并采用相应的言语策略。达到交际目的的
随着大数据时代的到来与人工智能的发展,对海量数据的分析与处理成为了一项重要的任务。其中,对时间序列进行异常检测是数据挖掘中一项必要但繁琐的工作。针对时间序列的异常检测研究可以应用于数据噪声检测,防止黑客攻击公司服务器的入侵检测等等用途,在现实生活中有大量的应用实例。因此,研究并开发高效的时序异常检测算法有着现实意义。本次研究中的时序异常检测模型首先使用基于编码长度构建的算法判断时序片段是否含有异常
激光是20世纪的一大发明,以其亮度高、方向性好、单色性好等特点而获得广泛的认可。早期的激光器大多数只能输出基模光束,近年来,高阶模柱矢量激光器获得越来越多的关注。不同于均匀偏振光,柱矢量光的偏振态在光束横截面内呈柱对称分布。独特的偏振特性和聚焦特性使其在光镊、材料加工、模分复用系统、表面等离子体激发、传感等方面发挥着重要作用。实践的应用推动了柱矢量激光器的发展,人们提出各种被动方式和主动方式尤其是
表面触发型真空弧离子源具有结构简单紧凑、放电功率低、放电稳定性好等特点,广泛应用于等离子体沉积、离子束注入以及金属离子源等核物理相关的研究领域。本论文在中科院战略先导专项支持下,研制了一种小型表面触发式真空弧离子源。在已有的理论研究和实验研究基础上,搭建模拟仿真平台和实验验证平台,对离子源的放电和引出特性开展了系统的分析研究。(1)本文研究了表面触发型真空弧离子源阴极几何结构对触发放电的影响,使用
海洋面积辽阔且资源丰富,挖掘海洋资源对人类社会的可持续发展意义重大,随之日益频繁的海底潜航活动对水下通信系统提出了更高的要求。水声通信传输距离远但数据速率低,传输延迟高,水下电磁波通信由于水体的趋肤效应,传输距离受限,它们都难以胜任日益增长的应用需求。与上述水下无线通信技术相比,水下无线光通信(Underwater Optical Wireless Communication,UOWC)技术能够提
相较于传统的彩色相机,深度相机不仅能获取物体的颜色信息,还能表达出物体到相机的距离。深度相机能表现出更清晰的目标物体轮廓,且不受目标物体颜色的影响,因此受到了研究者的广泛关注,在目标追踪、手势识别、医疗和人体行为分析等许多领域有重要应用。在实际场景中,深度相机还有着成本低、无需数据输入、支持语音、面部和手势识别等优点。这些都能创造出更舒适自然的人机交互环境。因此,将深度相机应用到现实场景具有重要意
近年来,深度神经网络飞速发展,被广泛应用在众多领域之中。为了应对更复杂场景的挑战,达到更高的精度,深度神经网络的规模呈爆炸式增长,耗费的计算、存储资源越来越多,给硬件带来巨大压力。为了将它部署在性能功耗受限的设备上,需要对模型进行精简和加速。深度神经网络主要由线性层和非线性层组成,本文通过压缩线性层和加速非线性层,来实现模型的压缩和性能提升。线性层包含了模型中绝大部分参数,量化线性层可以有效地精简
低共熔凝胶是一种新兴的环境友好型导电软材料,具有独特的离子导电性、环境稳定性和低毒性,且能有效克服传统水凝胶适用温度范围窄以及离子液体凝胶高毒性和高制造成本等问题。因此,低共熔凝胶被视为柔性可穿戴应变传感器的理想候选材料。然而,目前所报道的低共熔凝胶传感器还存在机械性能较差的问题,并且缺少自恢复和抗疲劳能力,难以维持传感器在长期使用过程中的信号稳定性。基于以上问题,本论文以结晶性聚合物聚乙烯醇(P
物态调控是目前凝聚态物理领域主要的研究内容之一,很多新的物理现象都是在对物质的性质调控过程中发现的,同时不同调控手段可以改变物质的电子结构、晶体结构等,对于凝聚态物理的发展起着重要的作用。高压可以减小原子间距,增加电子轨道重叠区域,改变电荷分布,诱导晶体结构或电子结构转变。而且,高压不会引入杂质元素,在物理上是一种“干净”的调控手段,通过高压调控方法能够研究物质更本征的物理行为。超导态表现出零电阻