基于字词混合的中文实体关系联合抽取方法研究与应用

来源 :重庆邮电大学 | 被引量 : 0次 | 上传用户:jcm917
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
实体关系抽取任务可以从文本中抽取实体和实体间的关系,将非结构化的信息以结构化的形式展现,帮助用户从海量信息中快速找到所需要的信息。搜索引擎、知识图谱等下游任务中都是以实体关系抽取为基础。经过多年的研究,实体关系抽取方法已从早期基于规则、核函数和特征向量等传统方法转向了深度学习方法,其典型代表是神经网络模型。但在关系抽取方法中还存在一些不足,比如在对中文文本进行关系抽取任务时,可能由于分词边界问题导致最后关系抽取结果不理想,以及在句子中出现重叠实体关系造成难以抽取所涉及所有实体关系问题等。针对这些问题进行研究,内容如下。1.针对中文环境下进行关系抽取任务在分词时出现边界切分问题,通过对现有字词向量结合输入方式的研究,设计字词混合结构改善分词边界问题并且保留字的灵活性和词的语义信息。另外针对句子中出现重叠关系导致难以抽取所涉及所有实体关系问题,提出分层标记输出结构,对主实体、关系和客实体进行分层标记输出,来改善重叠关系问题。在Du IE数据集上实验结果表明,与其他基线模型相比,结合字词混合和分层标记结构后的模型有更好的效果。2.为了进一步提升关系抽取模型的特征提取能力,捕捉更远距离特征,提升模型训练速度,在字词混合模型基础上引入扩张卷积网络。通过对不同扩张率的扩张卷积网络进行叠加增加模型的抽取效果,同时对每层扩张卷积增加残差结构和门控线性单元预防可能引起的梯度问题,增强多通道信息传输能力,增加位置信息改善卷积网络位置信息缺失的问题。最后实验结果表明,与其他基线模型相比,融合混合扩张卷积结构的模型有更好的表现。3.实现了一个基于字词混合的关系抽取中文问答原型系统。将本文提出的算法模型应用到系统中,针对关系抽取任务,设计相应功能模块,为下游任务提供了数据支持。
其他文献
PPP模式是公共基础建设领域新兴的一种投融资机制,是PublicPrivate-Partnership的简称,国内将其理解为政府与社会资本合作或公私合营模式。PPP模式为我国改革开放及新型城镇化建设事业注入了新动力,促进了我国基础设施和公共工程项目建设的快速发展。然而,PPP建设项目的运行过程中衍生出各种违规乱象,甚至成为地方政府变相融资、违规举债的渠道。政府审计作为国民经济的免疫系统,对PPP建
学位
随着脑机接口(Brain Computer Interface,BCI)技术的发展,BCI控制系统引起了研究人员的广泛关注,其在残疾人辅助设备上表现突出。在BCI系统中,运动想象(Motor Imagery,MI)由于其自发性特点深受研究人员的喜爱。眼电(Electrooculography,EOG)对于脑电(Electroencephalograph,EEG)是一种伪迹,但EOG具有信号稳定、识
学位
目标检测是计算机视觉领域的一个重要研究方向。近年来,以卷积神经网络为代表的深度学习技术的运用使检测准确度大幅提升。在自然场景图像的目标检测研究中,该领域的学者不断取得显著的成果。基于无锚框的检测方法相比于锚框的检测方法,能够避免过多超参数的设计,冗余框过多带来的繁琐的计算量。遥感场景图像相较于自然场景图像,存在任意方向排列的目标,且目标尺寸变化大,尺寸较小等问题。直接借鉴自然场景下的无锚框目标检测
学位
报纸
单目标跟踪一直是计算机视觉领域研究的经典问题,它是指在一段视频中,根据初始帧已知的目标信息,用边界框在后续帧中实时定位这个目标的具体位置并且估计目标的运动状态。单目标跟踪最初在视频监控领域得到广泛的应用,随着单目标跟踪的发展,逐渐应用于人机交互、医疗诊断、军事制导等领域,并取得了较大的突破。基于深度学习的单目标跟踪算法最大的优势是既保留了相关滤波算法的速度,又利用深度神经网络提高了跟踪器的精度,使
学位
通常在传统的卷积神经网络分类模型中,存在特征信息丢失、光谱特征上下文信息被忽略的问题,且高光谱图像缺乏空间结构特征会存在混淆现象。这些因素会影响高光谱图像的分类性能。但高光谱图像分类技术应用于诸多领域,如在遥感图像处理领域中也被广泛关注,其分类原理是针对高光谱不同公开数据集逐个像素进行地物类型的判别。因此本文基于卷积和长短期记忆网络结构,进一步提升了高光谱图像的分类精度。主要研究内容为:第一,为了
学位
急性髓系白血病是血液系统的恶性肿瘤,主要临床表现为出血、感染、贫血和多器官浸润等,病情进展迅速,病死率高。化疗依然是治疗急性髓系白血病的主要方式,但仍有部分患者死于化疗期。减少化疗期的死亡率和提高治愈率是治疗该病的难点,所以围绕化疗期间增效减毒是中医药的优势和特色。中医认为急性髓系白血病的病因病机为正气虚损与邪毒内伏,故“扶正透毒”这一治疗原则贯穿整个疾病治疗过程。在治疗该病时尤其强调分期论治:化
期刊
行人检测技术在生活中应用广泛,推动了安防、自动辅助驾驶和机器人等的技术迭代更新。近年来,随着设备的计算能力的提升,行人检测技术也不断有新的突破。目前效果较好的行人检测算法多是基于双阶段检测方法,但是检测效率低,在商业落地实现时也比较困难。而单阶段行人检测算法虽然检测速度较快,但大多都是基于SSD结构的,且在拥挤场景中,对高度重叠行人的检测能力较弱。本文基于单阶段检测算法,提出了一种融合多实例预测的
学位
随着信息时代的到来,数据量呈现爆炸式增长,如何从海量数据中挖掘出有用的信息已经成为一个亟待解决的问题。聚类作为一种无监督学习方法,已经被广泛用于数据挖掘任务中。作为一种基于密度的聚类算法,密度峰值聚类算法使用局部密度和相对距离来描述聚类中心,并且可以聚类任意形状的类簇。然而,密度峰值聚类算法存在以下问题:在密度差距较大的数据集中不能选择到正确的聚类中心;分配策略容易引起连续错误;聚类效率较低。因此
学位
以某变截面连续刚构桥梁为工程背景,考虑该桥梁施工阶段的影响,建立精细化的三维有限元模型。对连续刚构桥梁合龙时的温度影响开展有限元参数研究,分析了不同合龙温度下及不同合龙顺序下桥梁结构的受力及变形情况。研究结果表明:不同合龙温度对主梁上、下翼缘的应力影响较小,对主梁和桥墩的变形影响较大。随着合龙温度的升高,主梁和桥墩的变形不断增大,所需顶推力也在不断增大。该研究成果可为同类桥梁合龙温度的选取提供一定
期刊