【摘 要】
:
因果信息是文本语义信息重要的一部分,自动识别句子中的因果信息是自然语言处理的一个重要任务,近年来的研究已经证明了因果信息提取可以促进解决各种机器学习问题,包括语义分析、问答系统等。传统的方法使用模式识别、规则约束、统计学习等方法来完成因果信息抽取的工作,严重依赖于领域知识和特征工程。随着网络中非结构化文本信息的爆炸式增长以及计算机硬件性能的大幅度提升,数据驱动的学习理论得以快速发展,而传统机器学习
论文部分内容阅读
因果信息是文本语义信息重要的一部分,自动识别句子中的因果信息是自然语言处理的一个重要任务,近年来的研究已经证明了因果信息提取可以促进解决各种机器学习问题,包括语义分析、问答系统等。传统的方法使用模式识别、规则约束、统计学习等方法来完成因果信息抽取的工作,严重依赖于领域知识和特征工程。随着网络中非结构化文本信息的爆炸式增长以及计算机硬件性能的大幅度提升,数据驱动的学习理论得以快速发展,而传统机器学习方法不能充分的利用大数据所蕴含的潜在知识,因此,神经网络技术开始流行,神经网络为构建复杂、精确的模型提供了基础框架,研究人员借此开发出了卷积神经网络、循环神经网络、长短期记忆神经网络等各类变体以应用于不同的场景任务中。随着深度神经网络技术不断的发展成熟,越来越多的学者开始使用神经网络来搭建自然语言模型。同时,计算机中对于文本的表示方式也越来越成熟,因为独热编码无法使得文本表示蕴含语义信息,研究人员开发出了各式各样的词向量来对文本进行表示,并取得了显著的成就。近年来,数据驱动的数学模型得到概率理论的支持和长足的发展,研究人员倾向于大数据模型,而不是仅仅依靠模式来学习,因此,神经网络模型不断推陈出新。并广泛的使用于语言任务中,同时,随着迁移学习和预训练模型的引入和发展,研究人员越来越注重于寻找一个好的特征编码方案来进行文本表示,并且根据具体的任务定制对应的模型以期得到最好的效果。因此,如何合理的对文本输入进行编码,如何避开现有流行框架的短板,如何有效的对网络进行训练都会影响到模型最终的性能,我们针对以上问题进行了深入研究,并对图像领域的前沿技术进行了复用分析。本文提出了一个叫做CISA(Causality Extraction based on Capsule Network with Self-Attentive Encoder)的基于神经网络框架的因果信息提取模型,该模型用来检测指定事件对中是否含有因果信息,并给出事件对中哪个是因,哪个是果。为了学到句子中长距离的依赖特征,更好的对文本信息进行编码,该模型使用了基于自注意机制的文本特征编码器,因此避开了卷积神经网络和循环神经网络带来的局限性。此外,为了提升模型的准确度,本文引入了胶囊网络机制来学习句子中更多的实例化特征。我们在公开的数据集上评估了该模型,实验结果证明了我们的方法能够以较高的准确率识别文本中的因果关系,另外,我们设置了详细的对照实验对模型中的各个部分进行了详细的评估。
其他文献
“旌”的原义为旗帜,后引申为表彰。“表”是指动物的皮毛表面,有表露、显现的意思。“旌表”后来逐渐发展成表彰、表扬的意思。旌表制度是一种表彰制度,表彰的主要对象有义
高等教育的普及化导致教育需求的不断增加。面对空前的高等教育需求,政府与社会合力形成了较为完善的高等教育体系。即使如此,需求仍然是研究教育的重点,尤其是在高等教育扩
与未发芽糙米或精制白米相比,发芽糙米包含许多生物活性和健康有益成分。本论文用反相高效液相色谱或高效液相色谱-质谱联用法,研究比较糙米、白米和发芽糙米中的活性成分,尤
焦虑是人和动物在面临危险情境时共有的情绪体验,是对不可预期威胁事件的防御反应。已有大量的研究表明不可预期的威胁刺激是诱发焦虑情绪的关键因素。但是,目前相关研究主要集中在可预期和不可预期的威胁刺激对焦虑情绪的影响是否存在差异,尚未有研究针对可预期性对焦虑情绪影响的作用机制进行系统考察。本研究主要探讨了不同可预期程度的威胁刺激对个体主观焦虑感的影响,以及可预期性的两个子特征-发生概率的高低和随机性对个
植物纤维作为一种高分子生物质材料,具有广泛的来源和低廉的成本,在水污染控制领域的应用前景广阔。榕树气生根(BARs)作为一种废弃的生物质资源,具有充足的供应量及作为环境
本文主要研究稀土溶液浸泡预处理对20CrMnTi钢等离子体渗氮的组织与性能的影响,开发一种新的稀土催渗工艺。本文采用稀土溶液浸泡的方法对试样进行预处理,再进行不同温度的渗
水稻是我国的主要粮食作物之一,保障水稻的稳定生产和稻米的安全供应对确保国家粮食安全和社会稳定具有十分重要的作用,本文针对水资源短缺、水环境污染、水氮利用效率低等限制水稻可持续发展的实际问题,将具有持水保肥能力的天然斜发沸石引入到水稻生产系统中。首先在常规淹灌稻田中进行大田裂区试验,主区为氮肥量(N_0,0 kg·ha-1;N_1,70 kg·ha-1;N_2,140 kg·ha-1和N_3,210
图像融合是一种提取多张源图像的有效信息并组合为一张融合图像的算法,它为计算机的后续处理及人为观察提供了便利。随着相关技术的发展以及图像的海量产生,图像融合可以应用的领域也较为广泛,例如医学图像的多模态融合、摄影领域的多焦距图像融合、遥感领域的全色图与多光谱图像的融合等。与此同时,卷积神经网络(CNN)作为深度学习领域的主要方法,解决或改进了图像领域的诸多问题并且取得了不俗的成绩,例如图像的分类、分
协商民主作为西方学界的理论创新,自提出以来得到了西方众多学者的解释和分析。自上世纪,协商民主理论被引入中国后,国内学者对其同样给予较高的关注和认同。与此同时,以温岭市民主恳谈为代表的地方协商民主实践正悄然而生。2017年,十九大报告提出“推进社会主义协商民主广泛多层制度化发展”,更是把协商民主的定位提升到了国家政治体制改革重要方向的战略层面。在这之前,2013年,党的十八届三中全会提出“推进国家治
软磁复合材料由表面包覆绝缘层的软磁合金颗粒组成,因此兼具金属软磁材料高磁通密度和软磁铁氧体高电阻的优点,可以同时满足器件小型化和高频使用的需求。传统软磁复合材料因