面向微博文本的命名实体识别方法研究

来源 :北京交通大学 | 被引量 : 1次 | 上传用户:ggf9988998
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
命名实体识别作为自然语言处理领域的基本任务之一,在信息检索,自动问答,知识图谱等领域发挥着重要作用。目前,关于命名实体对规范性文本的识别研究相对成熟,但对微博等非标准文本的命名实体识别研究相对较少,而微博文本的命名实体识别效果不如规范性文本。面向微博文本的命名实体识别任务已成为研究的热点。随着深度学习方法在自然语言处理领域中的广泛应用,通过深度学习方法来提升命名实体识别任务的性能已经成为一种普遍流行的方式,因此,如何充分利用网络文本特性并结合深度学习方法,进而提出适用于网络文本的命名实体识别框架成为了本文的研究重点。鉴于微博媒体行业的文本内容较为口语化的特点,本文将微博文本规范化过程与命名实体识别任务联合建模,提出联合文本规范化的命名实体识别框架;将非规范的网络文本通过查找非规范词典替换非规范词的方式进行规范化处理,并提出了融合注意力机制的实体识别模型进一步改善了面向微博文本的实体识别性能。本文的主要创新点和贡献如下:1.提出一种基于非规范词特征的word2vec训练词向量的方法计算相似度,通过训练非规范词的高维词表,将组合实体向量表示与高维词表的向量进行相似度计算;提出K-means聚类和Brown聚类算法对微博实体进行聚类,得到候选规范词集合以确定最佳候选的实体,最后将非规范实体替换成规范的实体。2.提出一种确定候选规范词数目的方法,使用规则对其过滤;最后依照非规范词典对文本进行规范化处理。3.提出一种融入Attention机制的长短时记忆网络(LSTM),用于关注与实体相关的信息,并缓解上下文信息冗余或出现噪音的问题。在设计编码层时,将双层双向长短时记忆网络(SC-BiLSTM)模型作为向量的编码层,提取上下文的深层语义信息,来辅助实体识别任务。本文针对以上方法进行对比实验,实验结果表明:相较于Hassan提出的文本规范化模型的精度提升了 4%,SC-BiLSTM_ATT模型的精度在基线系统的基础上提升了 10%;由此可见,本文提出的联合规范化的实体识别框架适用于面向微博文本的命名实体识别任务,并且提出的SC-BiLSTM_ATT模型与传统模型相比较能有效提升实体识别的性能。
其他文献
智能视觉检测和跟踪是近年来计算机视觉领域的一个新兴研究方向,基于计算机视觉方法对摄像机获得的视频数据进行分解、学习,并以此为基础对视频进行视觉检测和跟踪,从而使计
分析了两种常用的四相开关磁阻电动机(Switched Reluctance Motor,简称SRM)功率变换器主电路;给出了新型功率变换器主电路。结合对5.5kW四相SRM调速系统的研制实践,通过增加D
为分析线路避雷器对1 000 kV交流输电线路耐雷水平的影响,用ATP-EMTP软件建立相应的元件仿真模型,并就避雷器安装方式、工频电压和接地电阻对反击与绕击耐雷水平的影响进行仿
1990年代以来,一批以先秦诸子为题材的历史小说致力于对中国传统文化的溯源和对中国文化的形象书写。作家们站在全人类和世界主义的立场与高度,通过对儒道兵诸家文化的阐发,
我国台湾地区通过完善制度、健全机构、加强考古调查发掘与研究、推动公众积极参与等多种方法和手段,在大遗址保护与开发领域取得了较显著的成效,特别是卑南遗址的保护与开发
二战过后,海外华人在经济,科技等领域取得的辉煌成就已举世瞩目,海外华人经济实力已被公认是国际资本的一支举足轻重的劲旅,对于海外华人成功的原因,已经成为西方的学者研究
<正>1月23日,太平洋区域11国在日本东京完成"全面且有进展的跨太平洋伙伴关系协定"(CPTPP)谈判,并将于3月8日签署协定。三天后,美国总统特朗普在达沃斯论坛上对奥巴马时期完
随着世界各地雾霾天气的影响,人们对生活中PM(Particulate Matter)值的高低越来越关注,尤其是近年来不少专家指出细颗粒物PM2.5可以诱发支气管炎和心血管等方面的疾病,并将矛
<正>一、总体建筑艺术特征的比较1.木构与石构翻开一部厚厚的建筑历史,我们会发现一个奇妙的事实:以中国为代表的东方建筑艺术体系,是从木构发展而来的;而以欧洲为代表的西方