【摘 要】
:
信息抽取是从无结构化的原始文本中抽取出结构化的信息,主要包括命名实体识别、关系抽取和事件抽取等。复杂实体(如嵌套实体和非连续实体等)的研究受到了越来越多的重视,大量
论文部分内容阅读
信息抽取是从无结构化的原始文本中抽取出结构化的信息,主要包括命名实体识别、关系抽取和事件抽取等。复杂实体(如嵌套实体和非连续实体等)的研究受到了越来越多的重视,大量的工作都是集中于对嵌套实体的研究,很少有针对非连续实体的研究。鉴于此,本文开展了针对复杂实体的信息抽取研究工作,主要内容包括:第一,针对中文嵌套命名实体的识别,本文提出了一种结合自注意力机制与联合学习的嵌套命名实体识别方法。首先,该方法使用共享参数的多层双向长短期记忆网络(Long Short-Term Memory,LSTM)对句子进行编码。然后,在双向LSTM层之间采用基于自注意力机制的实体合并方法,有效地将下层LSTM获得的实体语义信息传递给上层。实验结果表明,该方法能够更加有效地捕捉文本中蕴含的嵌套实体,在中文嵌套命名实体语料上取得了较好的效果。第二,受多层序列化模型的启发,本文提出了一种基于虚拟嵌套实体的非连续实体识别方法。首先,该方法将原本难以通过序列化标注的非连续实体转化为虚拟嵌套实体。接着,通过多层标记策略将虚拟嵌套实体的识别整合到嵌套实体识别的模型中。最终,根据多层序列模型预测的标签信息还原出非连续实体与连续实体。在GENIA语料上的实验结果表明,该方法能够识别出非连续实体,从而为实现一个能识别全部实体的综合识别系统打下基础。第三,针对嵌套命名实体关系抽取,本文提出了一种基于BERT预训练模型的方法。首先,根据中文嵌套命名实体的结构特点,使用不同的占位符标识出了嵌套实体之间的层次信息。然后,使用微调的BERT模型捕获序列隐含的语义信息,同时利用CNN模型捕获序列中最重要的部分。实验结果表明,该模型在中文嵌套实体关系抽取任务上取得了较好的效果。
其他文献
随着智能制造和大数据时代的到来、实时监控的需求和数据的采集、集成、计算和分析技术的发展,工业大数据技术及应用将成为未来提升制造业生产力、竞争力、创新力的关键因素
围产期,孕妇胎心宫缩监护(Cardiotocography,CTG)是产科诊所最常规的诊断检查。临床上,胎心宫缩监护的输出形式主要是纸质CTG报告,但其视觉分析和解释缺乏客观性和可重复性,
随着国家工业4.0的提出,传统的液压伺服控制器很难满足现代工业对于精度的控制要求,因此液压伺服控制器的精度,已经成为衡量液压伺服系统性能关键的一环。随着微电子行业与控
随着数字化设计制造技术的快速发展,基于模型定义(Model Based Definition,MBD)的模式已经成为当前产品设计与制造的主流模式,面向MBD模型重用的产品检索需求日益突出。由于
基于实施乡村振兴战略的大背景下,江苏省的“美丽乡村”建设正以不同于城市的方式快速发展。建筑设计方案阶段是美丽乡村建设的重要环节,在设计过程中要确保方案的前瞻性、科学性、合理性、可操作性以及生态的承载能力。现阶段美丽乡村建筑设计方案的决策多以专家的主观经验为辅,基层政府决策者的意见占决定性的主导地位。这样的方案评价方法可靠性不强,并且没有一套科学的评价理论体系作为决策的支撑。本文在上述研究背景下,结
数字全息是一种光学成像技术,它可以通过电子传感器记录干涉图样来捕获物体的衍射波前。由于全息图保留了整个波前,人们可以通过重建算法来重建振幅和相位信息,使我们能够从
长期以来,高血糖引发的糖尿病及其并发症广受世界的关注,而葡萄糖是诊断糖尿病最重要的生物物种之一。除此之外,葡萄糖也是微生物发酵过程中常见的反应物和中间产物,是发酵过
乳腺癌是危害女性身心健康最严重的疾病之一。乳腺癌发病病因尚未明确,难以预防,因此乳腺癌普查成为发现早期乳腺癌的唯一方法。乳腺钼靶检查是当前公认最好的乳腺癌普查方法。乳腺钼靶检查可以检查乳腺中的肿块、钙化灶、乳腺结构扭曲等异常,其中肿块和钙化灶都是诊断乳腺癌的重要特征。通过对钙化灶检测的需求分析,设计实现了一套乳腺钼靶片钙化灶检测系统,帮助放射科医生进行钙化灶辅助检测,以减轻医生的阅片负担。基于Py
凤鲚Coilia mystus,隶属于鲱形目(Clupeiformes),鳀科(Engraulidea),鲚属(Coilia),俗称籽鲚、烤籽鱼、凤尾鱼、小鲚鱼,在中国、朝鲜半岛和日本均有分布。凤鲚味道鲜美,肉质细嫩,营养价值高,其罐头制品曾是我国重要的出口创汇产品,享誉国内外。凤鲚是长江口主要的经济鱼类和捕捞对象,曾是长江口著名的“五大渔汛”之一,捕捞量曾经占长江口渔业总捕捞量的48.6%。然而
滤波是故障诊断、目标跟踪等领域常见的算法,在一些需要追求高精度与准确性的动态系统的实际应用中有着重要的地位。在滤波算法的发展历史中,针对不同特征的动态系统的滤波算