【摘 要】
:
随着互联网的发展,信息量指数增长,如何从大量信息中获取所需要的信息是一个重要问题,因此,信息抽取的相关技术研究愈发重要。事件检测是自然语言处理中事件抽取任务的子任务,是信息抽取中的一个重要方向。给定一段文本,事件检测旨在从中检测出潜在的事件类型。目前的事件检测主流是对文本中的触发词进行识别,并判断该触发词属于哪个事件类型。这种基于触发词的事件检测方式会加大数据标注的工作开销,此外,在事件检测任务中
【基金项目】
:
广东省促进经济高质量发展专项资金项目,《广东省新兴海洋经济产业地图与大数据平台》,项目编号:GDNRC[2020]56;
论文部分内容阅读
随着互联网的发展,信息量指数增长,如何从大量信息中获取所需要的信息是一个重要问题,因此,信息抽取的相关技术研究愈发重要。事件检测是自然语言处理中事件抽取任务的子任务,是信息抽取中的一个重要方向。给定一段文本,事件检测旨在从中检测出潜在的事件类型。目前的事件检测主流是对文本中的触发词进行识别,并判断该触发词属于哪个事件类型。这种基于触发词的事件检测方式会加大数据标注的工作开销,此外,在事件检测任务中触发词其实并非必不可少的,因此本文以无触发词的事件检测方式为基本思路,研究了如何在无触发词的情况下实现文本的事件检测。具体地,本文分析了句子级别和文档级别的事件检测任务存在问题,并分别提出了相应的算法。1)句子级的无触发词事件检测。与其它领域不同,自然语言领域的标签往往是有语义的,但目前大多数研究,包括对事件检测的研究却往往把标签作为一个独热向量使用。因此本文提出了一种结合标签感知与多任务学习的事件检测算法,一方面将待检测的文本与标签文本一同表示成向量,并用这两个向量计算待检测文本包含该标签对应的事件类型的概率;另一方面还为事件检测任务构造了辅助任务,通过多任务学习的方式增强模型的泛化能力。在ACE2005数据集上的实验表明,本文所提出的算法F1达到73.4%,明显优于其它的无触发词事件检测方法。2)文档级的无触发词事件检测。先前的事件检测工作主要是在单条句子上进行的,少有针对文档的事件检测工作。与普通的面向句子的事件检测任务不同,文档级事件检测任务需要将重点放在存在多个事件的情景,因为一个句子常常只包含一个事件,但一篇文档却很有可能包含多个事件。本文针对文档级事件检测任务中存在的多事件关联问题,提出了一种基于Bi-LSTM和多类型注意力机制的神经网络模型。该模型通过Bi-LSTM和自注意力机制实现对文档的局部与全局信息抽取,借助词级和句子级的多头聚合注意力机制将词向量压缩成文档向量,利用多标签分类的方式完成文档级事件检测。该模型使用的多头聚合注意力机制能有效应对多事件场景。由于缺乏文档级的事件检测数据集,本文构造了基于海洋新闻的文档级事件检测数据集,并将提出的文档级事件检测模型及其它基线模型在该数据集上进行了实验分析,实验结果证明了所提模型的有效性。
其他文献
随着互联网技术以及社会经济等的高速发展,文档图像数量激增。计算机文档分析在纸质文档电子化、内容识别、内容检索等领域具有广泛的应用。近年来随着教育信息化的不断推进,智能教育成为国家的重要战略之一。新冠疫情下社会对智能在线教育的迫切需求,使得对教科书、习题册等文档的自动分析成为研究的热点。文档版面分析是指根据文档图像中不同区域的语义功能对文档进行区域分割并识别区域类别,是文档分析的关键步骤。其次,面向
近年来,随着网络技术的提升及多媒体数据的爆炸性增长,这使得我们在现实生活中要面对的数据量越发庞大。同时,我们目前的需求不再满足于单一模态数据的相似性检索,而是多模态数据间的相互检索,即跨模态检索。而哈希技术的出现大大降低了检索时间与存储成本,因此在近年来也引起了广泛的关注与应用。经过多年的研究,跨模态哈希技术尽管有了不小的进展,但仍然存在着一些问题需要解决。例如大多数有监督哈希方法仅仅将标签信息转
科学技术的进步,使得人们对美好生活的向往有了更深层次的追求,人们已不满足于只能完成单一既定任务的设备,而是更青睐于具有一定思维能力的智能机器人。SLAM是人工智能技术的重要基础,其赋予了机器人自我感知世界的能力,通过搭载特定的传感器,在未知的环境中实现对环境模型的构建,同时估计自己的运动。目前,SLAM技术已被广泛应用于智能机器人、无人机、自动驾驶以及AR/VR等领域。伴随着计算机视觉技术的飞速发
颅内压高症是许多疾病的共有症群,采用植入式设备对患者的颅内压进行连续性监测,并在监测到颅内压异常时自主释放降压药物以维持患者颅内压动态平衡,这对颅内压高症的治疗具有重要意义。本文围绕植入式颅内压监测给药系统进行研究,设计并实现了具有颅内压监测、颅内压异常诊断和药物释放的功能植入式系统。(1)针对传统颅内压监测设备不灵活,患者依从性低的问题,设计了一种软植入的颅内压实时监测设备,在允许患者小范围活动
纳米孔已经成为一类特殊的单分子分析工具,为检测和表征核酸和蛋白质等生物分子提供了巨大的潜力。作为生物纳米孔的替代品,固态纳米孔由于其在孔隙几何和孔径尺寸上的大范围可调性以及其优异的机械特性和电学特性而呈现出显著的多功能性。本文采用离子电流监测机制辅助的各项异性湿法刻蚀法进行锥形硅基固态纳米孔的制备,在满足低成本、批量化、可控性制备需求的同时,将制备工艺节点推进至亚5nm。围绕上述主题,本文主要研究
随着互联网信息科技的发展,人们在日常生活需要处理各式各样的信息,信息过载成为人们快速获取需要的信息内容的一个重大难题。推荐系统的出现无论是对于业务需要的高效工作,还是日常生活的品质体验,都帮助人们大大减轻了筛选信息的工作,带来巨大的帮助和收益。推荐系统的实现方法是根据学习用户或项目本身的属性信息,以及用户与项目的历史交互信息来挖掘用户可能感兴趣的项目。但传统的推荐算法只关注于用户和项目的直接交互数
社交媒体中存在着大量的用户情感信息,企业决策者们不仅希望了解用户情感,还希望了解相应的原因,以帮助他们从用户层面思考和优化产品。在这样的需求下,情感原因检测成为自然语言处理中具有重要价值和应用前景的任务之一,并逐渐发展为情感原因对提取任务(ECPE)。传统的二阶段ECPE模型存在着模型错误传递无法修正的问题,尽管后来的端到端模型解决了这一问题,但仍存在着文档事件特征利用不充分、混淆因子夹杂的问题。
命名实体识别作为自然语言处理领域中的基本任务,可以从非结构化的文本数据中提取实体信息,在问答系统、信息抽取、阅读理解等其他自然语言处理领域任务起重要支撑作用。在文本数据爆炸式增加、GPU计算能力快速提升的背景下,深度学习被应用于解决命名实体识别问题并取得了良好的效果,成为解决该领域问题的主流方案。虽然命名实体识别技术取得了迅猛发展,但许多命名实体识别研究都是在英文领域,中文领域的命名实体识别依然存
组合设备是一种高度自动化集成制造系统,能够对单枚晶圆进行高效且精确的加工。因此,它被广泛应用于半导体芯片制造。组合设备由一对真空锁、一个传输模块以及若干个加工模块组合在一真空环境中。随着半导体芯片制程日益复杂,由若干台组合设备通过缓冲模块耦合而成的多组合设备逐渐被晶圆厂采用。由于组合设备的价格不菲,因此寻找有效的调度与控制方法提高其利用率和回报率,是非常有必要的。近几年来,芯片产品种类多样化,晶圆
随着信息技术推动全球由传统工业进入信息社会,农业也迈入数字化、智能化的新时代。研究基于三维点云技术的植物形状表达与表型分析,对促进农业的高产量、高质量生产具有至关重要的意义。然而,对植物幼苗进行三维重建,常存在户外环境光线不稳定、叶片间的遮挡、摄像头视野限制、扫描精度过低等因素导致植物幼苗点云出现噪声、稀疏、缺失的情况,影响了植物表型分析的准确度。因此,研究植株点云数据的修补算法,能辅助植物三维形