基于领域规则和深度学习的文本信息提取

来源 :西安电子科技大学 | 被引量 : 0次 | 上传用户:xiaoshang
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
在当前互联网时代,各种信息和资料的数量每天都在剧烈增长,文本数据作为其中一个重要部分,也是日益增多,怎样从庞大的文本数据里快速获取知识,是一个研究热点。生物文本信息提取是文本挖掘技术在生物医学领域的重要应用,通过生物实体识别、生物关系提取、生物事件提取、生物实体指代消解等一系列的基础工作构建出生物网络,帮助生物医学相关工作者进行各种学习和研究。本文针对其中的生物事件提取和生物实体指代消解,做了以下三个工作:(1)提出了一种基于SVM和生物文本规则融合的事件提取方法。在复杂生物事件中,不同类型的事件具有不同的句法、语义特性,因此很难只用一种单独的模型来对所有类型的事件进行识别提取,此方法在一个多分类SVM的基础上,针对不同类型事件提出了不同的句法、语义规则进行后处理,并用实验证明了各种特征和各种规则的有效性,取得了很好的事件提取结果,在Bio NLP See Dev任务上获得了最好的成绩。(2)提出了一种基于句法分析树和生物领域特性的蛋白质指代消解方法。针对不同类型指代关系的特点,本方法用三种不同方案分别对关系代词、人称代词和限定性名词短语类型的指代关系进行消解处理,其中关系代词和人称代词类型使用了句法分析规则,限定性名词短语类型使用了生物领域特性规则,并在Bio NLP蛋白质指代消解数据集上进行了实验,结果相比于当前最好成绩有所提升。(3)提出了一种基于LSTM的蛋白质指代消解方法。本方法在词向量的训练过程中,直接生成了照应语和候选先行语提及的整体表示特征――提及向量,然后对包含照应语和候选先行语的一个词序列,使用提及向量、词向量和其他少量特征,通过LSTM学习到序列的整体表示特征,并且输出类似于概率的输出值,以此对候选先行语进行排序,为照应语挑选最优的先行语。本方法在只需要很简单的特征输入情况下,自动化的从数据集中学习到所有指代类型的全局判别特征,相比于基于规则的方法避免了繁琐的手工规则挖掘过程。
其他文献
壮语分为南北两个方言,北部方言为大方言区,占整个壮语方言区的三分之二,而南部方言仅占整个壮语方言区的三分之一。两个方言区之间最重要的差别之一是:南部方言有送气的清
一、保叶柑桔叶片是制造兼贮藏有机养分的器官,若花芽分化前落叶,会严重影响花芽分化而导致下年少花甚至无花.因此要加强肥水管理和病虫防治,以保护叶片,防止不正常落叶,促进
目的探讨无牵拉技术辅助下经侧裂-岛叶入路显微手术治疗高血压基底节区脑出血的临床疗效。方法将82例高血压基底节区脑出血患者按随机数表法分为A、B两组,每组41例。A组接受
产道血肿是产时比较常见的并发症,笔者对本院产道血肿78例进行分析,讨论血肿发生相关因素及防治.
目的 探讨低频外周神经和肌肉刺激仪联合导乐陪产在减轻分娩疼痛的有效性和通过对分娩方式回顾性分析,研究该方式对分娩结局的影响。方法 随机选取2015年12月~2017年3月我院
<正>新生儿正常的体重范围为2.5kg~4.0kg,若出生体重小于2.5kg则成为低体重儿,若出生体重大于4.0kg,则称为巨大儿。一般来说低体重儿多为早产儿或其他先天不足的患儿,其很容
目的对比观察非手术法、切开复位钢板内固定法这两种不同的方法在治疗锁骨中段1/3移位骨折方面的疗效。方法随机选取我院于2015年1月至2016年1月期间收治的104例锁骨中段1/3
目的比较产钳助产与剖宫产对母婴结局的影响。方法选取2016年12月至2017年6月濮阳市人民医院收治的108例产妇,按随机数表法分组,各54例。对照组接受剖宫产,观察组接受产钳助
脑卒中后遗症所致肢体、语言、识知等功能障碍给康复期治疗过程带来一些困难,使患者不能提高生活质量,特别是致残肢体水肿更难奏效.笔者结合常规治疗配合中药泡浴取得良好效
目的探究集对分析在公共场所卫生监督质量综合分类中的应用。方法选择2014年内蒙古自治区锡林浩特市反映公共场所卫生监督质量资料为研究对象,采用集对分析进行综合分类,观察