融合字注释的文本分类模型

来源 :计算机应用 | 被引量 : 0次 | 上传用户:liuhu8207
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
针对传统文本特征表示方法无法充分解决一词多义问题,构建一种融合字注释的文本分类模型。首先,借助现有中文字典,获取文本由字上下文选取的字典注释,对其基于Transformer的双向编码器(BERT)编码生成注释句向量;然后,将注释句向量与字嵌入向量融合作为输入层,丰富输入文本的特征信息;最后,通过双向门控循环单元(BiGRU)学习文本的特征信息,引入注意力机制突出关键特征向量。在公开数据集THUCNews和新浪微博情感分类数据集上进行文本分类的实验结果表明,融合BERT字注释的文本分类模型比未引入字注
其他文献
高分辨率遥感图像分割在军事、民用等领域具有良好的应用前景,但由于复杂的背景条件以及干扰物的遮挡,导致现有算法无法较好地从遥感影像中提取道路细节信息。研究基于改进U-Net网络模型,提出了MDAU-Net(multi dimension attention U-Net)网络结构模型:通过对U-Net网络结构加深至七层结构来提升精细分割道路的能力;并提出了一种多维注意力模块MECA(Modified
期刊
已有很多机器学习算法能够很好地应对预测分类问题,但这些方法在用于小样本、特征空间很大的医疗数据集时存在着预测准确率和F1值不高的问题。因此,为改善肝移植并发症预测的准确率和F1值,提出一种基于迁移成分分析(TCA)和支持向量机(SVM)的肝移植并发症预测分类方法。该方法采用TCA进行特征空间的映射和降维,将源领域和目标领域映射到同一再生核希尔伯特(Hilbert)空间,实现边缘分布自适应,迁移完成
期刊
为探索国产卫星GF-1预测土壤有机质(SOM)的能力,本研究以广东省云浮市的罗定市为研究区,以GF-1多光谱遥感影像衍生的9个遥感变量和DEM提取的9个地形水文变量为预测因子,建立2种人工神经网络模型(A模型:地形水文;B模型:地形水文+遥感),对5个土壤深度(L1: 0 ~ 20 cm,L2: 20 ~ 40 cm,L3: 40 ~ 60 cm,L4: 60 ~ 80 cm,L5: 80 ~ 1
期刊
相较于传统单极化SAR,全极化SAR(polarimetric synthetic aperture radar,PolSAR)能够获取更加丰富的地物目标极化散射信息,更全面地描述目标的几何物理特征。为了充分利用地物目标的极化散射信息,基于复Wishart分布的极化似然比检验原理(polarimetric likelihood ratio test,PolLRT),构建了极化似然比统计量来准确评价
期刊
针对当前飞机遥感图像目标检测算法的精度和实时性不能兼顾的问题,提出了基于SSD(Single Shot MultiBox Detector)的锚框尺度密集化和锚框策略匹配目标检测算法。该算法选用经过改进后的深度残差网络替代SSD算法原有的特征提取网络。结合飞机遥感图像存在小尺度且密集的特点,该文重新设计了锚框尺度大小、比例和额外增加了一个包含两种尺度的特征层。而后对各个特征层进行锚框密集化操作使得
期刊
针对海鸥算法(SOA)在迭代寻优过程中容易陷入局部最优、收敛速度慢以及寻优精度低等缺陷,提出一种黄金正弦引导与Sigmoid连续化的海鸥优化算法(GSCSOA)。在海鸥迁徙阶段,使用Sigmoid函数作为非线性收敛因子引导海鸥搜寻过程,使得算法前期保持更强的全局寻优能力,后期更快收敛。在海鸥扑食阶段,引入禁忌搜索的思想,使得海鸥始终向着置信度更高的区域移动,并且在一次迭代中最优位置持续变化,从而提
期刊
动态对比增强核磁共振成像已被广泛应用于乳腺癌等恶性肿瘤的临床诊断。但是,对造影剂过敏患者将无法进行该项检查。因此,提出一种融合边界及区域信息的增强图像生成网络用于生成乳腺虚拟动态增强MRI图像。该网络由一条下采样路径和两条对称的上采样路径组成,使用跳跃连接将下采样路径的低维特征图直接传递到上采样路径上,同时在两条上采样路径间也实现边界与区域特征图的传递。实验结果表明,该方法能够安全、高效及低费用地
期刊
交通流量预测是智能交通系统中的重要研究课题,然而,交通对象(如站点、传感器)之间存在的复杂局部时空关系使得这项研究颇具挑战。尽管以往的一些研究将流量预测问题转化为一个时空图预测问题取得了较大的进展,但是它们忽略了跨时空维度的直接关联性。目前仍缺乏一种全面建模局部时空关系的方法。针对这一问题,首先提出一种新颖的时空超图建模方案,通过构造一种时空超关系来全面地建模复杂的局部时空关系;然后提出一种时空超
期刊
针对大多数粒计算特征选择算法未考虑数据的类别分布不均衡性的问题,提出了一种融合伪标签的类别不平衡数据特征选择算法。首先,为了便于研究类别不平衡数据特征选择方法,重新定义样本和数据集一致度的概念,给出了相应特征选择的贪婪前向算法。其次,引入伪标签策略,用以平衡数据的类别分布,将所学样本的伪标签融入一致性测度中,构造伪标签一致度,用于估计类别不平衡数据集的特征。最后,通过保持类别不平衡数据集的伪标签一
期刊
K-匿名算法通过对数据的泛化、隐藏等手段使得数据达到K-匿名条件,在隐藏特征时同时考虑数据的隐私性与分类性能可以视为一种特殊的特征选择方法,即K-匿名特征选择。K-匿名特征选择方法结合K-匿名与特征选择的特点使用多个评价准则选出K-匿名特征子集。过滤式K-匿名特征选择方法难以搜索到所有满足K-匿名条件的候选特征子集,不能保证特征子集的分类性能是最优,而封装式特征选择方法计算成本又很大。因此,结合过
期刊