论文部分内容阅读
在互联网时代,人们面临着网络信息爆炸式的增长,每天面对着这些真假难辨、大量冗余的信息,很容易产生“信息疲劳”,这无疑给人们的生活带来了负担。而网络文章的核心实体识别有助于人们在大量信息中,快速把握文章的主旨内容,及时获取有效地知识。同时,核心实体的识别可以应用于各种场景,如舆情监测任务、商品的评论情感分析任务、信息推荐系统等场景。网络文章涉及领域多样,文本结构不一,且核心实体在文章中的内部特征分布不一致,不能用统一的模板去刻画语义特征。而中文的核心实体识别本身也存在很大的难点,核心实体词前后没有明显的特征区分,导致实体边界难以划分,使得核心实体词的提取难度增大,并且长实体词存在词嵌套现象,导致提取的核心实体词往往不准确。同时,在文章中提取核心实体词也是一个难点,需要结合对文章篇章级的把握,理解上下文的语义特征,从而可以找到代表文章核心描述的目标实体词。论文围绕网络文章的核心实体识别展开以下研究,并给出了可行的解决方案:(1)近几年,Bi-LSTM-CRF模型以长距离的语义捕捉而广泛用于自然语言处理中,在传统的命名实体识别上表现出优秀的分类性能。因此,论文将该模型应用于网络文章的核心实体识别进行性能研究;(2)网络文章存在杂乱多样,文本分布特征不一致等特点,核心实体又存在边界难以划分,实体词互相嵌套,且形式多变等问题,因此,论文提出一种基于神经网络集成的方法。单分类器无法学习到样本数据的多个偏好特征,而集成方法通过训练多个有差异性的基分类器,从而扩大假设空间,使分类器学习到多样性的特征,以提高模型的泛化性能。经实验证明,以传统Bi-LSTM-CRF模型作为基准,F1值改进了8.75%;(3)文章的核心实体识别需要基于理解篇章级的语义特征,把握文章的主旨,从而提取核心描述词,并且往往带有标注的样本数据是十分有限的,针对该问题,论文提出一种基于改进特征的层叠Bi-LSTM-CRF集成模型。Bi-LSTM模型善于捕捉段落级序列,但由于篇章级的序列特征过长以及有无用信息的干扰,使得神经网络无法很好地把握文章整体的语义信息,降低了核心实体识别的准确性。新模型通过建立层叠结构以及对神经网络输入特征的改进,使得下一层网络分配给不同实体特征的关注度不同,并将有限的神经网络处理资源更多地聚焦到重要信息上,从而极大地提高了实体识别的效率与准确性。实验证明,模型的F1值累计改进了21.18%,其性能得到了进一步的提高。