基于判别式模型的生物医学文本挖掘相关问题研究

被引量 : 0次 | 上传用户:zhouf
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
随着计算技术和生物技术的进步,当前生物医学文献正在以前所未有的速度增长。这些文献中蕴含着最新的研究进展和丰富的生物医学知识,对于生物医学研究者具有重要意义。然而数以千万计的文献使得研究者追踪和整理自己需要的知识和信息变得越来越困难。文本挖掘技术可以解决这一问题,帮助生物医学研究者提高从文献中获取知识和信息的效率。因此针对生物医学文献的文本挖掘研究具有重要的应用价值。判别式模型是一类直接利用特征来预测目标变量的发生概率的机器学习模型,本文中主要用到的判别式模型有最大熵模型和条件随机域模型。相对于产生式模型,判别式模型降低了特征之间的独立性假设的要求,并且与很多文本挖掘任务的需求相一致,因而更有可能取得好的效果。本文主要研究如何利用判别式模型来解决生物医学文献挖掘中的问题。具体地,我们研究了生物医学文本挖掘中的三个任务:生物医学名实体识别、生物医学实体规范化以及生物医学语义关系抽取。在这3任务中,第二个任务是第一个任务在语义处理上的延伸,前两个任务是第三个任务的基础。本文的主要内容包含以下4个方面。生物医学名实体识别的目标是确定一个给定的文本集合内的某一类型的实体的名字的所有实例,它是进行深层次文本挖掘的必要步骤之一。本文在考察了生物医学领域实体识别的特点和难点,分析了目前已有的生物医学实体识别方法的优缺点的基础上,提出了利用条件随机域模型结合丰富特征集来进行生物医学实体识别的方法。这些特征包括:构词法特征、上下文特征和句法特征。其中,浅层句法特征是首次被引入到条件随机域模型中,同时用来进行实体的边界检测和类别判断。实验表明,这一特征可以有效地提高名实体识别的效果。有监督的机器学习方法需要大规模的标注语料。大量的电子文献使得在生物医学领域获取未标记的语料已相当容易,但是对语料进行标注仍然是一件昂贵的工作。针对在生物医学名实体识别中有监督学习所需的大规模训练语料比较难以获取的问题,本文提出了基于最大熵模型的协同训练的半监督学习方法。该方法可以利用大量的未标注语料来提高在较少的标注语料的基础上学习到的分类器的名实体识别性能。为了进一步提高半监督学习的效果,本文将主动学习引入到半监督学习的过程中。实验表明,基于最大熵模型的协同训练方法可以有效地提高初始分类器的识别性能。灵活的生物医学实体命名方式使得生物医学实体具有严重的歧义。这已成为对生物医学文献进行深层自动文本挖掘的主要障碍之一。生物医学实体规范化的提出就是为了解决这一问题。生物医学实体规范化就是把生物医学文献中表达同一概念的不同变体映射到统一的概念标识符。本文提出了一种用于生物医学实体规范化的多层歧义消解框架。实体规范化过程中不同阶段有不同的歧义情形,在本文提出的框架中,针对这些情形采用了有针对性的解决策略,包括:基于词典的实体名字检测,基于机器学习方法的候选选择以及基于知识的歧义消解。在BioCreAtIvE2006基因名字规范化任务的测试集上的实验表明本文提出的框架可以有效地解决规范化过程中的各种歧义。生物医学语义关系抽取是生物医学文本挖掘的主要研究内容之一,是从无结构的生物医学文献中抽取出生物医学知识的重要手段。在实际应用中,生物医学语义关系的定义有宽泛和具体之分。本文将宽泛定义和具体定义的生物医学语义关系抽取分别看作二分类和多分类问题,提出基于最大熵模型的生物医学语义关系抽取的方法。针对不区分类别的蛋白质相互作用这种宽泛定义的关系抽取,提出了一种基于最大熵的二阶段蛋白质相互作用关系抽取方法。针对多类别的蛋白质相互作用这种具体定义的关系抽取,提出使用最大熵模型结合词特征的抽取方法,该方法在一个具有10种蛋白质相互作用类别的数据集上取得了73.4%的总体精确率。同样的方法应用到疾病与治疗方式关系抽取任务中,也取得了很好的实验结果。此外,本文还通过理论分析和实验对比,从理论和实践两个方面说明了判别式模型比产生式模型更适合生物医学语义关系抽取问题。
其他文献
本文旨在探讨交易型开放式指数基金(Exchange Traded Fund,简称ETF)这种成熟金融产品在我国证券市场现行制度框架下推广应用的可行性。作者以ETF产品设计中的几个技术要点为
圆是解析几何中的重要内容,被融合在各类考题中。抓住圆的本质属性,通过分析和转化,从没有圆的问题中找出隐圆加以利用成为重要的解题途径。
近年来,思想政治教育建设进入全面发展时期,教育部门也非常重视学生的思想政治教育,而思想政治教育环境也逐渐引起了各界人士的广泛关注。微观环境作为思想政治教育环境的重
本文详细阐述了课题背景下的"复盘式"教研活动模式,并以"彩灯的PLC控制"教学为例描述了"复盘式"系列教研活动下的教学反思,在预设与生成的冲突中反思,以提高教学设计的科学性
自从中国的高等教育由精英教育变为大众教育后,一方面,越来越多的人走进大学校门,圆了大学梦;另一方面,市场经济的发展导致物价上涨,致使办学成本增加,高校不得不进行收费制度
自2005开始引起我国教育研究者的关注以来,学科教学知识(PCK)迅速成为教师知识研究的热点话题.相较于PCK,更加契合数学学科特点的数学教学内容知识(MPCK)理所当然地受到了数
近年来,高等院校的思想政治理论课教学质量受到普遍关注,高校青年思政教师已成为高校开展意识形态安全和社会主义核心价值观教育的主力军,承担着将高等院校思想政治理论课教
综述了钼及钼合金在电阻焊、钨极氩弧焊、激光焊、电子束焊及搅拌摩擦焊方面国内外的研究现状。电阻焊主要用于焊接钼丝;激光焊能解决电阻焊很难解决的问题,适合焊接精细的电
<正>在生命体的活动中,除大脑外,脊髓的作用也极其重要。如果把大脑比喻成生命指挥中心,那么脊髓便是大脑与四肢唯一的信息交换通道。但是,通常并不能把脊髓称作人的第二大脑
期刊
近世以来,西学东渐,新式学堂兴起,以此为背景,私立高校登上历史舞台。上海为近代最早开埠的五所城市之一,西方大学理念也是最先传入。上海与私立高校存在千丝万缕的关系,城市