【摘 要】
:
文本情感分类领域性强,传统情感分类方法在多领域混合数据上效果不佳.为了提升多领域混合情境下文本情感分类的准确率,使用双向编码器表征模型(bidirectional encoder representations from transformers,BERT)得到短文本的初级表征;利用对抗网络提取与领域无关的情感特征;利用双向长短期记忆网络(bidirectional long short-term memory,BiLSTM)提取上下文特征;将提取到的两种特征进行融合,构成基于对抗网络和BERT的情感分类
【机 构】
:
北京工商大学 电商与物流学院,北京100048;北京工商大学 国际经管学院,北京100048
论文部分内容阅读
文本情感分类领域性强,传统情感分类方法在多领域混合数据上效果不佳.为了提升多领域混合情境下文本情感分类的准确率,使用双向编码器表征模型(bidirectional encoder representations from transformers,BERT)得到短文本的初级表征;利用对抗网络提取与领域无关的情感特征;利用双向长短期记忆网络(bidirectional long short-term memory,BiLSTM)提取上下文特征;将提取到的两种特征进行融合,构成基于对抗网络和BERT的情感分类模型,提升情感分类准确率.在公开数据集上进行的对比实验表明:基于对抗网络和BERT的情感分类模型相比于基线模型具有更高的准确率,准确率在两个数据集上分别达到了95.25%和93.61%,并且在领域差别较大的数据集上有着更好的表现,初步验证了多领域混合情景下情感分类模型的有效性.提出的模型适用于电商平台对商品进行实时监测之类涉及多领域的场景.
其他文献
自然场景文本识别是计算机视觉领域一项极具挑战性的任务,为此提出一种适用于任意方向的自然场景文本识别算法.使用高分辨分割网络作为基础框架提取文本的空间信息,利用卷积长短时记忆网络提取文本的时空序列信息,同时通过设计字符注意机制使模型专注于字符上,并采用可微分二值化函数进一步加大网络对前景的注意力,削弱对背景区域的关注,网络对每个像素点进行37分类,并使用文本转录模块将分类结果按照从左到右的顺序转换成文本.该算法在包括ICDAR2013,ICDAR2003,SVTP,CUTE,IIIT5k的多个标准数据集上进
中文文本数据的半结构化甚至非结构化的特点使得其分类存在着特征高维的问题,传统单一的特征降维方法难以满足大数据时代的文本分类需求.基于此,提出了一种基于卡方统计(Chi-square statistics,CHI)和主成分分析(principal component analysis,PCA)的混合特征降维方法(CHI-PCA),该方法使用CHI方法初筛出类别相关的特征词,使用PCA方法对特征词空间进行二次降维,在特征降维的同时仍保留了原始特征空间最多的特征信息.通过与文档频率(document frequ
自2016年9月国务院办公厅印发了《关于大力发展装配式建筑的指导意见》,建筑行业的发展开始进入新的产业转型升级探索期;在劳动年龄人口减少和绿色低碳发展的双重背景下,持续健康发展、绿色发展、“双碳”目标、智能建造等已成为建筑业改革创新、转型升级的新发展方向.此次建筑业的转型将带来全新的行业变革,建筑业将面临产业链的重新组合与调整.众多企业纷纷投入大量人力物力开展不同层面的研发创新工作,力争在此次转型中争得上游,其中收购与重组是通常被用来快速补齐自身产业链完整性的有效手段.但在此过程中,往往忽略了设计的产业龙
为了在保证纠错性能的情况下提高相关信源联合译码(joint decoding of correlated sources,JDCS)系统的可实现性,将具有结构化特性、易于实现的原模图LDPC(protograph-based LDPC,PLDPC)码引入JDCS系统.针对传统基于原模图的外部信息转移(protograph-based extrinsic information transfer,PEXIT)算法无法直接分析JDCS系统中子译码器之间所传递的外信息这一问题,提出了一种适合JDCS系统的性能分
在疫情防控常态化背景下,家庭居住空间已不仅是日常生活起居的场所,更承担了如办公、娱乐、隔离等特殊功能属性,居民使用过程中也暴露出很多“不适应性”问题,改变了使用者对传统居住空间的认知观念.通过对疫情期间居住方式改变的分析,结合使用者真实需求,从空间设计、居住健康、人性化设计、装配工业化等方面探索人与居住空间、居住空间与建筑、建筑与自然之间的关系,并提出后疫情时代居住设计新理念.
针对深度学习中对任意形状文本检测准确率不高的问题,提出了一种结合特征金字塔网络(feature pyramid network,FPN)和内核尺度扩展算法的文本检测网络模型.特征金字塔网络能够提取卷积层中更加鲁棒的特征,融合后生成不同尺度的特征内核;内核尺度扩展算法将生成的最小特征内核逐渐扩展为包围完整文本实例的特征图.同时为了针对自然场景中难以检测的文本实例,在训练阶段加入了在线难例挖掘(online hard example mining,OHEM)的方法,并以迁移学习的方式采用2种不同训练策略进行训
为提高低密度奇偶校验码的译码性能,更好满足5G系统对于误码率的需求,提出多归一化因子最小和(multiple normalized dactors min-sum,MNF-MS)算法.此算法以归一化最小和(normalized min-sum,NMS)与密度演化最小和(density evolution min-sum,DE-MS)算法为基础,将蒙特卡罗仿真求归一化因子的方法进行简化,求得校验节点信息平均绝对值和最小绝对值的比值,这个比值加上一个大于零的权值得到对应校验节点的归一化因子,迭代次数平均分为5
针对大规模多输入多输出(multiple input multiple output,MIMO)系统中亟待解决的导频污染问题,提出一种基于K均值聚类的导频分配策略来减轻导频污染问题.该方案基于大尺度衰落因子对用户进行门限分组,再基于用户位置信息对用户进行K均值聚类分组,并对不同组别的用户采用不同的导频分配方案.仿真结果表明,基于K均值聚类的大规模MIMO导频分配方案可有效抑制导频污染问题对大规模MIMO系统性能的影响,提高导频效率并减少导频开销.
低碳经济背景下,绿色建筑在推动建筑行业可持续发展过程中发挥重要作用.但其在快速发展中,过度依赖技术而轻视地域文化的问题凸显,使各地的绿色建筑呈现趋同态势.如何反思当下绿色建筑理念与本土文化相契合的命题?在“绿色赋能? 精益建造——2021年中国土木工程詹天佑奖优秀住宅小区技术交流会”上,全国工程勘察设计大师,广东省建筑设计研究院副院长、首席总建筑师陈雄指出:应传承本土文化,重温建筑设计中最基本因素.
北京市某工业化住宅项目采用太阳能与燃气壁挂炉联合供热设计方案,通过分析采暖系统、生活热水系统、太阳能热媒系统的原理及控制方案,探究太阳能结合燃气壁挂炉热源系统的适用性及其在工业化住宅项目中的应用重点,以为后期在工业化住宅中应用此类系统提供参考.