【摘 要】
:
命名实体识别研究中常见的公开数据集普遍存在数据类别标记不平衡的问题,限制了基于统计学习模型方法性能的进一步提高.针对上述问题,提出了基于遗传算法的数据类别标记平衡
【机 构】
:
四川大学网络空间安全学院,四川大学电子信息学院
【基金项目】
:
中国科学院网络测评技术重点实验室开放课题基金“面向非结构化数据的威胁情报知识图谱构建”(NST-18-001)
论文部分内容阅读
命名实体识别研究中常见的公开数据集普遍存在数据类别标记不平衡的问题,限制了基于统计学习模型方法性能的进一步提高.针对上述问题,提出了基于遗传算法的数据类别标记平衡方法.该方法基于原始数据集中已有的标记数据,通过修改遗传算法中的指标适应度函数和基因组合规则,合成类别分布均衡的文本用以扩充原始数据集,降低标记数据不平衡性从而改善命名实体识别的效果.为验证该方法的有效性,采用Bi-LSTM-CRF模型分别基于CoNLL 2003及JNLPBA数据集设计了该方法与平衡欠采样、随机过采样方法的对比实验.从实验中发现
其他文献
本文指出了当前我国个人信息行政法保护中存在的不足,例如立法不足、缺乏统一的原则规范和相关的制度缺失。在文章的最后提出了完善个人信息行政法保护的一些设想,以便可以更
“中国特殊论”之争,是晚近数年缠绕汉语思想界的一个核心论题,其背后所涉及的哲学问题,便正是“当下性”(与“永恒性”相对)问题与历史主义(与普世主义相对)问题。要在哲学层面讨论
小行草书自其诞生之日起便受到古代文人的青睐,小行草书的章法形式特点的形成,受到早期简牍的形制、工具材料的限制以及书信礼仪的影响。在章法的空间性特点中发掘其中的技法
土地使用权人所建建筑物上空的空间权利是一种空中权,可以分为建筑物上空空间所有权和建筑物上空空间利用权.建筑物上空空间所有权的主体是国家和集体,建筑物上空空间利用权
日前,清华同方电脑——股王、英才、超越、学者系列大幅降价,平均降幅接近15%,最大降幅达20%。 同时,在国内家用多媒体电脑市场推出万元以下PⅢ“钻石99”电脑,价格仅为9990元
目前,我国农户的投资结构已趋于稳定,但其非农投资领域仍局限在“资金门槛”和“技术门槛”较低的行业。进一步来看,农户过往投资结构(如上期投资结构和期初投资结构等)和非农投资
英语是一种高度发展的语言,拥有大量的日语。语言中充满着文化负荷,不懂得文化,也就不能真正领会语言。文化因素对英语习语的翻译和理解起关键的作用。
数学教学提倡有效教学,而有效教学对于提高学生数学成绩和数学核心素养十分重要.那么如何进行有效教学呢,笔者将从以下几个方面进行阐述.一、高中数学有效教学的意义建构式教
提出一步估计方法用以估计变系数模型中具有不同光滑度的未知函数.在这一方法中,不同阶的多项式用来逼近不同光滑度的未知函数.由于只使用一次极小化,所需计算量要比现有的两步方
编码器由于码盘刻划精度、轴系跳(晃)动、安装工艺、环境干扰等原因,必然存在误差。为了提高编码器的精度,减小测量误差,本文首先针对编码器误差源进行了分析,并提出了基于BP神