【摘 要】
:
新闻文本常包含几十至几百条句子,因字符数多、包含较多与主题无关信息,影响分类性能。对此,提出了结合注意力机制的长文本分类方法。首先将文本的句子表示为段落向量,再构建
【基金项目】
:
国家社科基金西部项目(17XXW005);重庆市教委科学技术研究项目(KJ1500903)~~
论文部分内容阅读
新闻文本常包含几十至几百条句子,因字符数多、包含较多与主题无关信息,影响分类性能。对此,提出了结合注意力机制的长文本分类方法。首先将文本的句子表示为段落向量,再构建段落向量与文本类别的神经网络注意力模型,用于计算句子的注意力,将句子注意力的均方差作为其对类别的贡献度,进行句子过滤,然后构建卷积神经网络(CNN)分类模型,分别将过滤后的文本及其注意力矩阵作为网络输入。模型用max pooling进行特征过滤,用随机dropout防止过拟合。实验在自然语言处理与中文计算(NLP&CC)评测2014的新闻分类数据集上进行。当过滤文本长度为过滤前文本的82.74%时,19类新闻的分类正确率为80.39%,比过滤前文本的分类正确率超出2.1%,表明结合注意力机制的句子过滤方法及分类模型,可在句子级信息过滤的同时提高长文本分类正确率。
其他文献
选取了武汉市六个新城区和三个跨三环线中心城区23个工业园区为样本,对工业园区建设、土地、项目和经济发展等多个方面进行了综合绩效评比分析,通过评比剖析了工业园区存在的
采用金属原位分析仪、直读光谱仪、金相显微镜以及电子探针显微分析仪对三种不同碳含量试验钢的中心偏析和带状组织进行了检验,结果显示,铸坯中心偏析与成品带状组织之间存在
烟草青枯病是烟草的一大毁灭性土传病害,至今还没有一种安全有效的药剂能够防治它,因此发掘有效的生防菌进行生物防治,其现实意义十分重大。本研究分离筛选出对烟草青枯病菌有拮
改革开放前,党的教育方针只提"德育、智育、体育全面发展",改革开放后,曾有德智体美"四育并举"和德智体美劳"五育并举"之争,争论之后仍提"德智体全面发展";在第三次全国教育
目的通过对城市机动车驾乘人员佩戴安全防护设备的现况调查,了解佩戴行为现况,探讨佩戴行为的主要影响因素,继而开展针对性的干预措施,以及评价干预措施的效果,为制定我国城市道路
中子照相技术是无损检测技术之一,它具有其他无损检测技术无可替代的特点和优点,能够获得很多其它传统技术不能得到的重要信息。在无损检测技术中,由于中子照相具有特殊的功
目的:探讨分析粘连性肠梗阻的临床特点和防治措施。方法:总结分析我院2003年5月至2013年5月共收治了256例粘连性肠梗阻患者诊治资料。结果:253例患者得到有效治疗,治愈好转率达98
某基坑挖深17m、局部挖深18.6m,根据场地周围无建(构)筑物,地基土质较好,仅③粉土层易产生流砂现象的特点,采用分级放坡、基坑内设集水井分层降水、分层开挖、分层钢筋网片细石
目的通过观察血常规、活化的部分凝血活酶时间(APTT)、凝血酶原时间(PT)、血红蛋白浓度(Hb)、纤维蛋白原(FIB)、红细胞压积(Hct)、血小板计数(Plt)等实验室检查指标以及Sonoc
本文以实际资料为依据,定量分析了我国煤炭资源严重浪费给国民经济造成的直接经济损失及对矿井接替、生产布局、矿井生产安全等的影响。据此说明了提高资源回收率,保护煤炭资源