基于短语的中文模糊限制信息范围检测研究

来源 :大连理工大学 | 被引量 : 0次 | 上传用户:lijiazhivvv
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
模糊限制语是指“让事情变得模糊的词语”,其引导的信息被称为模糊限制信息。模糊限制信息检测旨在区分出事实信息和不确定信息,提高信息抽取的真实性和可靠性。进行模糊限制信息检测研究,对于信息抽取具有重要意义。模糊限制信息检测包括两个子任务:模糊限制语识别及模糊限制信息范围检测。基于词的范围检测方法是以词为候选分类单元,由于句子太长会产生大量的候选负例。同时由于句子内相邻正、负样例结构信息和上下文语义信息的相似性,导致分类器难以准确识别范围的边界。因此,本文以短语为候选分类单元,提出基于短语的中文模糊限制信息范围检测方法。模糊限制信息范围在结构上是模糊限制语所支配的一个短语或从句,在语义上是指模糊限制语所支配的完整语义作用范围,可见结构、语义信息对于范围检测都是有用的。本文从范围的结构信息、语义信息表示,及结构信息和语义信息融合三个方面进行探究,在中文生物医学模糊限制信息语料上研究中文模糊限制信息范围检测任务。研究内容如下:研究基于复合核模型的中文模糊限制信息范围检测。本文以短语为候选分类单元,基于多项式核函数和树核函数分别捕捉范围浅层的平面信息和句法结构信息,探究了范围的结构信息表示方法。采用复合核函数融合多项式核函数和树核函数,构建基于复合核模型的范围检测系统,句子级别F1值(F1_sen)达到70.19%。分别比单独基于平面、句法结构信息的系统最好F1_sen值高4.06%、20.27%,说明基于复合核模型的范围检测方法是有效的,能捕捉到范围浅层的平面信息和句法结构信息。研究基于神经网络模型的中文模糊限制信息范围检测。本文利用神经网络模型,挖掘范围的深层语义信息,探索了中文模糊限制信息范围的语义信息表示方法。结果表明,基于神经网络模型的范围检测F1_sen值最高达到67.84%,说明基于神经网络模型的范围检测方法能够有效捕捉到中文模糊限制信息范围的深层语义信息,提高范围检测性能。研究基于复合核和神经网络模型融合的中文模糊限制信息范围检测。基于复合核模型、神经网络模型分别能够捕捉到范围的平面信息和句法结构信息、语义信息。为综合利用三种信息,本文提出基于权重调整的结果融合、基于XGBoost的结果融合两种方法,构建基于复合核和神经网络模型融合的范围检测系统,F1_sen值最高达到71.68%,比单独基于复合核、神经网络模型的最好F1_sen值高1.49%、3.84%。说明本文提出的融合方法能够有效捕捉到范围的平面信息、句法结构信息和语义信息,同时三种信息的融合能够进一步提高范围检测性能。
其他文献
遥感技术的发展提供了大量的数据,而建筑物是高分辨率遥感影像中的主要目标地物之一,将建筑物从这些海量的数据中自动、高效地提取出来对于城市规划等方面具有着重要的意义。目前国内外对遥感影像的建筑物的检测、识别和提取已经取得了一定的研究成果,但是建筑物的结构类型丰富、纹理特征不一,且所在的环境复杂,存在树木遮挡等特点,给建筑物提取造成了一定的困难,并不能完全满足实际需求。本文将从高分辨率遥感影像中提取建筑
现在各个高校和企业等进行有关科研的相关单位为了跟上时代的脚步,并且使科研结果更加准确、有说服力力都在引进价格相对于比较昂贵但是科研工作必须要使用的电子设备。而大
随着视频处理与通信技术的进步,人们对视频服务的需求越来越多,诸如数字电视、IPTV、视频点播、视频会议、视频监控等服务也随之兴起。由于原始压缩视频信号的庞大,人们将压
目的:本研究通过在体实验探讨高脂喂养14周后的DIO小鼠附睾脂肪组织:miR-137-3p、LKB1/AMPK/m TOR信号通路、自噬水平这三者之间与脂质合成代谢及能量储存是否存在关系。离体实验通过对3T3-L1脂肪前体细胞miR-137-3p的表达进行干预,观察细胞分化情况,并检测相应的分子水平改变,探究miR-137-3p、LKB1/AMPK/m TOR信号通路、自噬水平这三者之间是否存在级
根据《2018-2022年中国跨境电商市场深度调研及投资前景预测报告》数据显示[1],2018年我国出口跨境电商交易额为9.7万亿元,预计到2019年我国出口跨境电商交易总额将增至11.5万亿元,年增速超过30%。2018年我国出口跨境电商卖家主要分布在广东、浙江、江苏、北京、上海、福建、天津等地。其中广东、浙江、江苏三省跨境出口电商卖家贡献的收入占了我国跨境电商产业总收入的52.9%。“互联网+
本论文主要对还原型Heck反应及其应用进行了简要的综述,同时运用四种不同的策略对天然产物dasyscyphin D进行了全合成研究。全文主要包含以下两章:第一章:还原型Heck反应及其
改革开放政策实施之后,我国的计算机和网络技术领域得到了迅猛发展,并取得丰硕成果。在这种背景下,国家信息中心对“电子政务”工程给出了一些新的要求,与此同时,越来越多人
自媒体时代图像信息应用广泛,同时图像安全问题值得关注。在众多图像加密方法中,混沌系统的初值敏感、不可预测等特性都非常适合运用到图像加密当中。Logistic、Chen等混沌系
随着网络通信技术不断发展,即时通信逐渐成为企业互联网网络通信活动中的重要业务,特别是企业内部日常通信和业务交流,开始往实时化,网络化,开放化发展,随之而来对即时通信的
我国当前处于社会转型关键时期,各方面社会矛盾集中爆发,敏感案(事)件类型愈发复杂多样。公安机关由于其常处在服务群众、打击犯罪、维护稳定的一线,需要以强制力实现国家意志等自身特点,受关注度极高。全媒体时代信息科技使新闻媒体与普通公众意见表达渠道更为畅达。全媒体时代对涉警网络舆情的有效应对,一方面可以使涉警舆情所反映的群众关切问题得以有效解决,另一方面也对公安机关工作效能和国家社会治理水平的提升发挥推