【摘 要】
:
社交媒体文本中突出的长尾效应和过量的词典外词汇(OOV)导致严重的特征稀疏问题,影响分类模型的准确率.针对此问题,文中提出基于字词特征自注意力学习的社交媒体文本分类方法
【机 构】
:
福州大学数学与计算机科学学院,福州大学空间数据挖掘与信息共享教育部重点实验室
【基金项目】
:
国家自然科学基金项目(No.61672158),福建省高校产学合作科技项目(No.2018H6010)资助.
论文部分内容阅读
社交媒体文本中突出的长尾效应和过量的词典外词汇(OOV)导致严重的特征稀疏问题,影响分类模型的准确率.针对此问题,文中提出基于字词特征自注意力学习的社交媒体文本分类方法.在字级别构建全局特征,用于学习文本中各词的注意力权值分布.改进现有的多头注意力机制,降低参数规模和计算复杂度.为了更好地分析字词特征融合的作用,提出OOV词汇敏感度,用于衡量不同类型的特征受OOV词汇的影响.多组社交媒体文本分类任务的实验表明,文中方法在融合字特征和词特征方面的有效性与分类准确度均有较明显的提升.此外,OOV词汇敏感度指标
其他文献
多媒体技术,网络技术的崛起和普及为英语教学的改革提供了良好的条件.本文针对多媒体及网络技术在英语教学中的应用进行了概况性的阐述,指出了多媒体技术将多种信息在多种层
企业生存与发展所需要的资金主要来源于权益性的资金和债权性的资金。其中,负债是企业一项重要的资金来源,几乎没有一家企业是只靠自有资本,而不运用负债就能满足资金需要的。然
场景线稿具有线条语义多样化的特点,直接应用现有的人像线稿图自动上色算法对其着色容易出现上色错误或棋盘效应等结果失真的现象.针对上述问题,文中提出动漫效果自动上色算法.基于条件生成对抗网络,改进和增强人像线稿图自动上色算法中常用的U型网络(U-Net)生成器的结构,设计双层信息抽取的生成器网络(DIEU-Net),自动完成场景线稿到动漫效果的上色.DIEU-Net设计用于抽取场景线稿浅层显著信息的双
家庭教育是所有教育中最早期、最重要的一种教育形式,对孩子的思维模式和世界观的形成起着至关重要的作用。随着社会经济的发展,中国的家庭越来越重视家庭教育,但由于各种原
本文从大学生素质教育的需要出发,明确了图书馆的地位和作用。在此基础上,初步探讨如何发挥图书馆在素质教育过程中的积极作用。
20世纪60年代,语言经济学(Economics of Language)理论兴起于美国,揭示出语言具有经济学本质的东西。随着全球贸易竞争的加剧,中国企业要成功打入国际市场应该具有一份高质量
针对煤矿机械磨损失效带来的危害提出减少磨损失效的几种对策。
2010年的关键词不少,比如笔者前段时间看到了一个年度汉字的评选活动,脱颖而出的年度汉字有“涨”、“慌”、“撞”等,这些字表达了每个人在年终岁尾到来时,对过去这一年的感悟和
为了研究牦牛源多杀性巴氏杆菌(C47-8)OMPH基因,试验采用试剂盒法提取菌株基因组DNA,比较了降落PCR与普通PCR扩增OMPH基因片段的特点。结果表明:扩增出的特异性条带与目的基