【摘 要】
:
当前网络上存在着海量的、多源的无结构化文本数据,如何从中快速提取用户感兴趣且有用的内容是亟待解决的问题。研究者们提出使用自动化工具将无结构化数据转化成结构化数据的概念,关系抽取是其中至关重要的步骤之一。根据数据集的标记程度可以将关系抽取分为有监督、半监督、无监督。针对有监督关系抽取即关系分类的相关算法研究有很多,主要集中于使用深度神经网络抽取待分类句子自身的语义特征,且均已取得了不错的性能效果。随
论文部分内容阅读
当前网络上存在着海量的、多源的无结构化文本数据,如何从中快速提取用户感兴趣且有用的内容是亟待解决的问题。研究者们提出使用自动化工具将无结构化数据转化成结构化数据的概念,关系抽取是其中至关重要的步骤之一。根据数据集的标记程度可以将关系抽取分为有监督、半监督、无监督。针对有监督关系抽取即关系分类的相关算法研究有很多,主要集中于使用深度神经网络抽取待分类句子自身的语义特征,且均已取得了不错的性能效果。随着知识图谱等高级语料资源的出现,部分研究学者为了提升关系分类的性能,试图从知识图谱中获取与关系分类中的样本句子相关的信息来丰富关系分类模型的特征。但是当前关系分类任务中使用知识图谱的方式仍处于起步阶段,尚有待改进和完善的地方。比如:(1)当前的关系分类方法中绝大部分只使用知识图谱的词汇特征,忽略了图的结构特征;(2)尚未有充分利用知识图谱语义,构造出脱离句子文本语义的独立完整的关系分类模型;(3)当前的关系分类方法仅将知识图谱中的相关知识用于现有关系分类模型的特征,尚未实现知识图谱语义对关系分类模型的特征级、结果级和模型级的多方位融合。针对上述问题,本文展开结合外部知识图谱的关系分类方法的研究,并做出如下贡献:(1)提出了基于知识图谱的关系分类句子的样本重构。通过样本重构,构造待分类句子对应的知识图谱子图,捕获知识图谱中句子对应背景语境的词汇特征和图结构特征;(2)构建GCN-BLSTM-Attention网络编码知识图谱子图的背景符号特征。在此基础上,提出结合句子本身语义结构特征和知识图谱子图背景符号特征的关系分类模型DGCN(Dual Graph Convolutional Network);(3)进一步地,提出脱离句子本身文本语义,仅基于知识图谱语义的KGCPR(Knowledge Graph Completion to Predict the Relation)关系分类模型,并使用知识图谱补全完成传统句子关系分类任务;(4)更进一步地,结合知识图谱语义和句子文本语义,提出基于注意力机制的特征级、结果级的多级融合关系分类模型MLFRC(Multi-Level Fusion Relation Classification),达到进一步提升关系分类性能的效果。在关系分类数据集上进行了测试,实验结果表明:基于知识图谱的样本重构能够有效捕获待分类句子语境的语义结构特征。相较于仅使用知识图谱词汇特征的关系分类方法,尽管DGCN模型仅进行了特征级融合也能取得更优的分类效果。再者,针对KGCPR模型的实验结果表明,仅使用知识图谱语义的关系分类方法是可行的,且基于样本重构出的知识图谱上的关系补全任务能够等价完成传统句子关系分类任务。最后,针对MLFRC融合模型的实验结果表明,基于图谱语义和文本语义的方法之间可以起到相互指导相互校验的作用,从而进一步提升关系分类的性能。
其他文献
目前,知识图谱(Knowledge Graph,KG)作为知识的结构化表示引起了研究人员的极大关注。知识图谱表示学习(Knowledge Graph Representation Learning,KRL)旨在学习一个准确的、富含语义信息的知识表示。目前的KRL方法仅仅考虑了KGs中结构信息和其他语义信息(描述信息、图像信息等),对实体属性信息应用不充分、不全面。此外,属性信息通常是复杂、异构、多
互联网的产生让人们能够在随时随地获得需要的信息或者分享有用的信息,因此随着互联网不断发展,信息规模成长到了人们难以筛选的量级,因此如何在海量的信息中提取到有用的信息具有十分重要的研究价值。问题生成作为自然语言处理中一项具有挑战的任务,旨在根据给定的文本以及目标答案生成合适的提问。该任务能够自动地扩充问答数据集,在阅读理解等多个领域都有着重要作用,并且也可以给对话系统提供冷启动话题。因此,如何提高问
动载作用下岩石的破坏规律研究对于众多地质灾害的机理分析和预防具有重要的理论及实际意义。鉴于数值模拟研究的优势,应大力发展适于岩石动力断裂过程模拟的数值方法。在自主开发的拉格朗日元与离散元耦合连续-非连续方法的基础上,采用朱-王-唐本构模型取代了广义胡克定律,发展了考虑动力本构的连续-非连续方法,其正确性通过模拟不同加载速度下砂岩试样的单轴压缩实验进行了验证。采用考虑动力本构的连续-非连续方法开展了
我国大部分地区煤碳质地致密,随着能源抽采进入深部区,瓦斯突出等现象越发严重,深部瓦斯抽采也遇到了前所未有的困难,煤体自身的物理性质,包括节理结构、含水饱和度、所受围压及外界环境温度等是影响煤层气存储能力和渗流能力的主要因素,本文针对现有提高煤储层渗透性实验方法的优缺点,利用液氮作为制冷液、低温保存箱创造低温环境,以辽宁省阜新盆地长焰煤为研究对象,利用物理增透的方式,开展了低温冻融作用下不同节理煤岩
液压支架立柱的泄漏是导致液压支架失效的主要原因之一。立柱挂液是泄漏的一种特殊形式。依据液压支架φ450 mm立柱的产品结构及3种厂家的密封结构分析,从增大密封过盈量、密封槽加工等方面提出解决立柱挂液问题的对策,可有效减少立柱挂液的发生,为解决立柱挂液问题提出新思路。
随着煤炭行业的持续发展,三下压煤问题对煤炭开采的影响日益严重,而分层充填开采是一种有效解决厚煤层三下压煤问题的重要技术手段。但由于分层充填开采方法较为特殊,且开采过程中会受到充填材料放热和充填体孔隙结构的影响,导致煤层和充填区内部瓦斯渗流和涌出规律十分复杂。为了探究使用分层充填法采煤过程中煤层瓦斯渗流及涌出规律,以高河能源3#煤层E1302工作面为研究背景,通过理论分析、现场试验、数值模拟相结合的
随着地下煤层开采深度增加,岩层控制难度加大,区段煤柱受到水的物理化学作用,在开采作用下易发生失稳,造成生命财产损失。因此,开展在采动作用下含水区段煤柱的稳定性研究,对煤矿的安全生产具有重要理论意义和实际应用价值。以实际煤矿开采工作面为背景,对不同含水率型煤试件进行单轴压缩及巴西劈裂实验,利用尖点突变理论与有限元数值模拟分析方法,对采动作用下含水区段煤柱的稳定性进行研究,主要工作与成果如下:(1)通
深度学习的概念一经提出,便引发了人工智能领域的发展狂潮,尤其在自然语言处理领域中,其影响极其深远。对于自然语言处理任务而言,仅依靠传统模型与数据标注结合的方法无法做到语义的精准理解。想要准确深入地理解语义,必须将先验知识融入到自然语言处理任务中。实践证明,知识指导的自然语言处理是未来发展的必由之路。随着研究的深入,知识图谱得到了广泛的应用,尽管如此,知识图谱依然面临着覆盖度不完整等问题。为了提高知
变分推理是计算后验分布的一种常用方法,因其收敛速度快、理论基础扎实,在机器学习中发挥着核心作用。传统变分推理假设变分分布为平均场形式(Mean-field),即隐变量之间相互独立,这种理想化假设虽然可以简化优化过程、提高计算可行性,却忽略了隐变量之间的后验相关性(后验依赖关系),对具有变量相关性的模型来说并不适用。Copula变分推理(Copula Variational Inference,CV
阐述光伏电池在焊接的过程中的电池片、焊接材料、焊接设备、焊接工艺,以及它们之间的匹配影响,以及对焊接质量的影响。