基于层叠Bi-LSTM-CRF集成模型的网络文章核心实体识别

来源 :长安大学 | 被引量 : 1次 | 上传用户:zhangstian
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
在互联网时代,人们面临着网络信息爆炸式的增长,每天面对着这些真假难辨、大量冗余的信息,很容易产生“信息疲劳”,这无疑给人们的生活带来了负担。而网络文章的核心实体识别有助于人们在大量信息中,快速把握文章的主旨内容,及时获取有效地知识。同时,核心实体的识别可以应用于各种场景,如舆情监测任务、商品的评论情感分析任务、信息推荐系统等场景。网络文章涉及领域多样,文本结构不一,且核心实体在文章中的内部特征分布不一致,不能用统一的模板去刻画语义特征。而中文的核心实体识别本身也存在很大的难点,核心实体词前后没有明显的特征区分,导致实体边界难以划分,使得核心实体词的提取难度增大,并且长实体词存在词嵌套现象,导致提取的核心实体词往往不准确。同时,在文章中提取核心实体词也是一个难点,需要结合对文章篇章级的把握,理解上下文的语义特征,从而可以找到代表文章核心描述的目标实体词。论文围绕网络文章的核心实体识别展开以下研究,并给出了可行的解决方案:(1)近几年,Bi-LSTM-CRF模型以长距离的语义捕捉而广泛用于自然语言处理中,在传统的命名实体识别上表现出优秀的分类性能。因此,论文将该模型应用于网络文章的核心实体识别进行性能研究;(2)网络文章存在杂乱多样,文本分布特征不一致等特点,核心实体又存在边界难以划分,实体词互相嵌套,且形式多变等问题,因此,论文提出一种基于神经网络集成的方法。单分类器无法学习到样本数据的多个偏好特征,而集成方法通过训练多个有差异性的基分类器,从而扩大假设空间,使分类器学习到多样性的特征,以提高模型的泛化性能。经实验证明,以传统Bi-LSTM-CRF模型作为基准,F1值改进了8.75%;(3)文章的核心实体识别需要基于理解篇章级的语义特征,把握文章的主旨,从而提取核心描述词,并且往往带有标注的样本数据是十分有限的,针对该问题,论文提出一种基于改进特征的层叠Bi-LSTM-CRF集成模型。Bi-LSTM模型善于捕捉段落级序列,但由于篇章级的序列特征过长以及有无用信息的干扰,使得神经网络无法很好地把握文章整体的语义信息,降低了核心实体识别的准确性。新模型通过建立层叠结构以及对神经网络输入特征的改进,使得下一层网络分配给不同实体特征的关注度不同,并将有限的神经网络处理资源更多地聚焦到重要信息上,从而极大地提高了实体识别的效率与准确性。实验证明,模型的F1值累计改进了21.18%,其性能得到了进一步的提高。
其他文献
锅炉管束是支撑炼焦的重要装置,由于其结构复杂、内部管子密集排列且有炉墙保温等,难以常规无损检测设备和方法无法进行检测与判定,即使年修时将炉墙或保温层拆开,亦无法对内
随着信息化时代的到来,信息技术以迅猛的姿态渗透到生活的方方面面,数据流量将会呈爆炸式增长。为了满足日益增长的数据流量需求,通信行业以及研究人员不断探索增加系统吞吐
中国是一个以煤炭为主要能源的国家,但是随着优质煤的不断消耗,褐煤的开发和利用逐渐得到重视。印尼褐煤是我国东部沿海省份火力发电主要采用的煤种之一,但较高的含水量严重
分布式高频超视距雷达采用多站组网模式,相较于传统海洋监测手段其具有精度高、区域大、连续性强和实时性等方面的优势,为广域的实时海态探测提供了技术保障。然而由于射频干
目的:探讨桥本甲状腺炎(HT)患者外周血单个核细胞(PBMCs)Notchl-D114信号通路与Th17细胞水平的变化及其与甲状腺自身免疫损伤的相关性。方法:收集40例2017年7月至2017年11月
随着移动数据需求飞速上升,面对爆炸式的无线数据需求,传统蜂窝网络在传输速率上、频谱资源上和能源消耗上都面临着前所未有的挑战,其瓶颈愈加明显。所以集中式蜂窝网络架构
随着电力系统的不断发展,在超高压远距离的交流输电系统中,串联电容补偿的输电方式得到了广泛应用,并对改善电压质量及系统稳定方面起到较好的作用,但同时也会引发严重的次同
高等教育是社会发展的重要动力之一。而其中的民办高校已从公办教育的补充形式,逐步转变为中国高等教育的重要组成部分。目前的民办高校发展中普遍面临诸多困境和问题,其中人
大型坑口电厂接入的高压远距离送出系统常采用串联电容补偿来提高输电线路的输送能力,并用以提高线路的电压水平以及增强系统的暂态稳定性。通过使用串补来实现以上功能是一
准东煤预测储量丰富达3900亿吨,有很大开发利用价值。但因为其中富含Na和Ca,在燃烧过程中造成严重的沾污结渣等问题,严重影响了其燃烧利用。通过洗煤燃前脱除Na和Ca是解决此