【摘 要】
:
随着计算机及网络通信技术的发展,互联网技术的飞速发展和Web3.0模式的迭代更新,各类社交媒体平台的出现使得人们能更加方便快捷的获取信息,例如国内的新浪微博、腾讯微博,国外的Facebook、Twitter等,这些社交媒体平台每天都会产生大量的网络文本产生,大量的信息都蕴藏在这些文本中。信息提取就是能自动的从这些非结构文本中提取结构化信息的自然语言处理任务之一,其中提取的结构化信息如“(马云,创始
论文部分内容阅读
随着计算机及网络通信技术的发展,互联网技术的飞速发展和Web3.0模式的迭代更新,各类社交媒体平台的出现使得人们能更加方便快捷的获取信息,例如国内的新浪微博、腾讯微博,国外的Facebook、Twitter等,这些社交媒体平台每天都会产生大量的网络文本产生,大量的信息都蕴藏在这些文本中。信息提取就是能自动的从这些非结构文本中提取结构化信息的自然语言处理任务之一,其中提取的结构化信息如“(马云,创始人,阿里巴巴)”的实体三元组能作为构建大规模知识库的知识来源。目前,作为知识主体的人物关系对信息的产生与传播具有重要的影响,研究者们逐渐开始关注人物资源对知识库构建产生的作用,故挖掘人物之间的关系成为一个研究热点。然而,传统的关系提取方法往往依赖大量的特征工程和自然语言处理工具,这样就会伴随着错误传播等问题。深度学习以其强大的计算和上下文语义捕捉能力可自动挖掘文本特征,已经成功应用于自然语言处理领域,很好的解决了传统方法中存在的问题。因此,本文基于深度学习研究了微博人物关系提取,主要工作包括以下几个方面:首先,本文构建了一个微博人物关系提取模型。该模型在卷积神经网络(CNN)的基础之上加入一个双向的长短时记忆网络(BiLSTM)编码层,形成一个混合神经网络。利用BiLSTM编码输入词的上下文信息,增强CNN提取更有效的文本语义特征,并提高处理大间距实体文本的能力。最后利用改进的分类器自定义目标函数对模型的训练过程进行优化。然后,本文为了解决在利用远程监督自动标注数据集产生的噪音问题,进而将输入从句子级别转换为包级别的输入,再利用微博文本实体之间的关系路径构建出一个关系路径编码器。该编码器用于测量文本中给定关系路径推理链的关系概率,将其与上一提取模型相结合计算出最能代表一个示例包的关系类型。实验部分基于远程监督结合外部知识库提供的中文实体三元组对爬取的数据进行对齐,生成后续的研究数据。为了验证本文提出模型的有效性,选取了基于不同方法的关系提取模型,设计了几组对比实验。实验表明,相比于传统特征工程的关系提取模型,在相同的实验环境下本文提出的模型效果更好,而相比于当前流行的基于CNN和LSTM的关系提取模型,模型的泛化能力更好。
其他文献
本文介绍了精益设计在轻型商用车装配线技术改造项目中的初步探索应用,从生产线设计阶段导入精益理念,确立了精益装配线的要素,以同步工程、多方案技术经济评审、柔性化、信
目的 观察优质护理应用于小儿腹型过敏性紫癜中的效果。方法 选取2016年3月至2018年3月我院收治的75例腹型过敏性紫癜患儿作为研究对象,随机分为对照组(37例)和研究组(38例)
以提高基层应急管理能力为目标,分析应急管理工作的实施。首先阐述应急管理能力建设的作用,介绍开展能力建设工作的三个要点,最后提出梳理应急管理职责、提高应急管理制度实
目的:随着社会经济的发展,我国非酒精性脂肪肝病(Nonalcoholicfatty liver disease,NAFLD)与冠心病(Coronary atherosclerotic heart disease,CHD)患病率逐年高发,对人们的健
模拟了劣质烟煤和无烟煤在1台300 MW四角切圆锅炉炉内分层混合燃烧的过程.模拟使用了两种方法:一种是双混合分数/PDF(Probability Density Function)方法,使用2种不同煤质特性的
<正>2018年10月末,记者来到江苏省苏州和源护理院。这天是吴婴来护理院看望94岁母亲周梅英的日子。两年前,母亲因为跌倒导致骨折,被送来和源护理院。两年多来,老人的穿衣、喂
逻辑的应用研究已涉及物理、生物、经济、教育和法律等诸多领域,但在行政监察工作中的应用研究成果却鲜有发现。其实,无论行政监察理论还是实践,都和逻辑有密切联系。逻辑有助于
实时虚拟主播是随着动作捕捉这一新生技术的发展和成熟而发展起来的。虚拟主播产生的初衷一定程度上是出于人类试图改变自身的局限性,而科技高速的发展为之带来了新的可能。
基于信贷角度,阐述信贷支持农业绿色发展必要性,分析信贷资金支持农业绿色发展的重点与面临的主要问题,探讨信贷支持农业绿色发展的对策建议。结果表明,传统粗放型农业生产方
近几年的高速增长点则集中在社会媒体上,微博微信等网络社交媒体的雨后春笋般兴起,让人们可以随时随地分享自己的生活、对热点的关注以及对时事的观点,人们的生活随着社会媒体的普及变得更加互联互通、共话共享。本文以微博为例,用户在微博上通过140字以内的短文本表达自己的想法,通过深度挖掘、条分缕析用户的微博文本来识别用户的消费意图。本文中定义消费意图为用户对于商品或者服务,表现出来的购买意向。通过发掘识别用