基于半监督方法的生物医学事件抽取的研究

被引量 : 0次 | 上传用户:nwj9666
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
在生物医学文献与日俱增的今天,自动地抽取文本信息成为医学专家的迫切需要。面对海量的无结构化信息,如何能变成便于组织管理的有结构化的信息成了人们研究的热点。信息抽取技术在这些年有了很大的发展和提高,从最初的命名实体识别一直到关系抽取,最后到更高层次的事件抽取。生物医学的事件指的是发生于分子层面的,蛋白质之间所发生的变化及关系,从事件中可以找出这种变化或关系的类型和主体。本文旨在针对生物医学文献的事件抽取进行研究,在前人研究的基础上进行深入探索。在对事件的处理上,采用了较经典的处理流程:预处理,触发词识别,事件元素检测,后处理。其中本文把研究的重点放在了触发词识别和事件元素检测上。在触发词的识别上,本文借鉴了命名实体识别的方法,先建立了一个候选词词典,通过从训练集和未标注数据中得到的各种有效特征,建立一个分类模型,来判断一个候选词是否为触发词。在事件元素的识别上,本文对事件的简单元素与事件的嵌套元素分别进行处理。事件的简单元素从蛋白质-触发词对中检测;事件的嵌套元素从触发词-触发词对中检测。在分类模型的建立上,由于标注语料大小有限,监督模型数据稀疏问题严重,本文采用了半监督学习的方法进行生物医学事件元素检测模型的建立。这种半监督方法是将一些在标注语料中稀疏,且具有较强分类能力的特征进行处理。利用与一些特殊特征在未标注语料中的共现信息,根据一定的算法计算并融合出新特征。本文在BioNLP2011语料集上,利用训练集与PubMed中未标注数据,抽取有效特征,建立事件抽取模型。对所构建模型进行验证,这种半监督方法取得了不错的抽取效果,尤其在简单事件的抽取上效果显著。
其他文献
为适应新课程标准的要求,我们学校积极参与课程改革,在校长的带领下实行"三二六"新的教学模式,课改已经三年之多,过程十分坎坷,困难重重,但初见成效。在这种教学模式下,完全
研究犯罪心理必然涉及刑法学、犯罪学和心理学,然而三学科概念的交叉形成研究的困难。犯罪心理研究既要以刑法学“犯罪”概念为起点,又必须引申并扩展,融入犯罪学对犯罪的研
本文作者提出并回答了为什么应该让职务发明者分享职务知识产权收益,以及如何让职务发明者分享职务知识产权收益的问题,颇有新意。
以超临界600mW直流锅炉水冷壁管内气-液两相流体为研究对象,试验段尺寸为25×4 000mm,材质为1Cr18Ni9Ti.在压力为11~21MPa,质量流速为600~1 200kg·m-2s-1,干度为0~1的工况
随着社会发展步伐的加快,钢铁行业即将进入一个崭新而充满机遇的时代,钢铁企业要想不断适应变化的竞争环境,就应该改变管理模式、转变经营战略,只有适应竞争环境,才能促进企
为了减少废水中重金属以及磷酸盐的排放,上汽通用汽车有限公司决定试点实施传统磷化转换薄膜工艺项目.通过制定设备改造、系统清洗、废水处理以及工艺调试等方案,成功实施了
武汉健民,一个享誉全国的品牌,刚刚经历了2004年上市带来的喜悦,还没有来得及庆贺,就被2005年市场上的变化弄得焦头烂额了。
近年来,3D打印成为人们关注的热点,将3D打印技术等新兴的科技引入校本课程中,有利于提高学生的创造性思维和跨学科思维,也能提高学生的实践能力。本研究主要探索针对高中生的
目的探讨白细胞介素1β介导的小型猪冠状动脉粥样硬化病变与药物诱发冠状动脉痉挛模型的构建方法。方法小型雄性家猪随机分为3组,每组8头,开胸手术分离冠状动脉左前降支和回
以苹果渣代替甜菜渣生产果胶酶,通过单因素搜索和正交试验对黑曲霉(Aspergillusniger)3.324固体发酵工艺进行了探索,结果表明:以苹果渣为主要原料生产果胶酶是可行的,最适培养