【摘 要】
:
命名实体和实体关系抽取始终是信息抽取任务中基础而又关键的子任务,同时也是自然语言处理(Natural Language Processing,NLP)领域内智能问答、机器翻译等综合应用中的关键基
论文部分内容阅读
命名实体和实体关系抽取始终是信息抽取任务中基础而又关键的子任务,同时也是自然语言处理(Natural Language Processing,NLP)领域内智能问答、机器翻译等综合应用中的关键基础环节,其成为近十几年来国内外学者进行广泛探讨和深入研究的课题。面对处理互联网迅猛发展带来的海量非结构化和半结构化文本数据的挑战,需要解决缺乏大规模规范语料库、输出结果不直观、人工特征抽取费时费力以及长距离上下文特征等难题。本文创新性的提出使用共现矩阵和滑动窗口方法解决长距离上下文特征问题,利用多层的自编码器抽取词语特征集来解决人工特征抽取费时费力和需要领域知识的难题,同时也增强了模型的泛化能力。将抽取问题抽象成分类问题,使得最终的输出结果直观而可靠。利用本文提出的创新性抽取方法,基于真实语料的实验结果表明,该方法的抽取结果与基于最大熵模型和特征融合方法的抽取结果相比,准确率平均提高了9.3%,召回率平均提高了 5.5%,F值平均提高了 7.5%。从对比结果来看,深度神经网络模型不仅可以应用于中文命名实体的抽取,而且在抽取性能上比浅层的统计学习模型有较大的提高。此方面的研究将为利用深度学习的理论和技术来处理自然语言问题提供理论和实践依据。
其他文献
本文主要基于韩国高中汉语文化教学现状,结合笔者在韩国两年的文化教学经验,依据第二语言习得、跨文化交际学,教育学,心理学等方面的理论,对韩国的学生汉语文化学习和汉语教
本文首先通过文献研究,对开国以来黑龙江农垦时代下黑龙江版画的表现方式,文化变迁进行了阐述;接着说明在改革开放的大环境下,分析当代黑龙江版画艺术作品的画面形式元素,做
自励书籍旨在鼓励人们积极上进,对人们的生活、学习与工作提出建设性的意见。阅读这类书籍,对于生活在当今快节奏社会的人们,尤其是对于奋斗向上的年轻人来说,有着非常重要的
随着计算机与互联网技术的快速发展,计算机图像在当今社会生活的各个领域发挥着越来越重要的作用。几乎每天都会产生海量的图像数据,面对如此庞大且纷繁复杂的图像数据,如何
催眠的历史源远流长,它在心理咨询、心理治疗与临床医学中都有广泛的应用。然而,有的人可以轻易地进入催眠状态,有的人却很难。研究者从被催眠者的个体内视角出发,发现催眠感
清代雍和宫是今北京地区最大的藏传佛教寺院。清乾隆九年(1744),改庙后的雍和宫,促进了满、蒙、藏、汉各民族间宗教、文化、艺术、医药、历算等多方面的交流,对中华民族传统
地理时空数据分解是进行地理时空数据分析最重要的研究方法。经典的经验正交函数法(Empirical orthogonal function,EOF)是目前地理时空数据分解中最常用、最有效的双正交分
The main aim of this research was to look at the policies that have been put into place to address women’s access to education.The study looked at how the gend
班第,禁旅八旗蒙古镶黄旗人,是清代乾隆朝前期重要的大臣。班第出身于官学生,在清朝中央任职近二十年,先后任内阁中书、内阁侍读学士、内阁学士、理藩院侍郎、工部侍郎等职。
随着“互联网+教育”模式的越来越多的展开,为人们远程在线学习的方式提供了更多的选择,丰富了人们的学习途径。虚拟学习社区(Virtual Learning Community)是远程在线学习的一种方式,丰富的学习资料,打破时间和空间限制的学习平台,兴趣相似的学习者,使得虚拟学习社区越来越多的应用于人们日常的学习活动中。虚拟学习社区中的学业求助是学习者针对在学习过程中遇到的不懂的问题,向社区内的导学者