论文部分内容阅读
生物医学领域的文献记录展现了该领域内的大量成果和实验发现。生物医学文本挖掘技术作为研究热点之一,可以快速有效地在海量的文献中获取相关知识。生物医学文本挖掘技术包括信息检索、文本分类、命名实体识别、关系抽取、假设生成等。随着基因技术的飞速发展,人们迫切希望从分子水平认识各种疾病的发生机制。在生物医学领域的文献中针对疾病进行关系的挖掘并构建疾病网络,挖掘与疾病相关的隐藏信息,给生物医学领域的科学家提供假设生成的依据,对于人类的发展、疾病的预防以及新药的研制都有着重要的意义。首先在生物医学命名实体识别获得良好性能的基础上给出了疾病和其他实体的本体标注方法,然后对文本进行分类以后再标注,进而进行关系的抽取和假设生成,从而对疾病和其他实体的关系进行预测。现有的生物医学命名实体识别方法将实体边界探测和语义标识任务在一个模型中完成,另外生物医学命名实体往往很长,相对单词级的特征而言,构建实体级的特征对于命名实体识别任务更加自然。因此,提出一种基于双层半马尔科夫条件随机场的实体识别方法,将任务划分成两个阶段来进行标记将是一个可行的解决方法。在第一阶段,命名实体和非实体被检测出来,分别标记为C和O。在第二阶段,命名实体被标记为具体的实体类别如蛋白质、DNA、RNA、Cell_line、Cell_type等。针对每一个阶段,挖掘了新的有用的特征。鉴于有些特征只作用于某一阶段,双层模型极大的减少了特征的维度。通过实验验证了算法的有效性,较之现有算法,基于双层半马尔科夫条件随机场的实体识别方法在JNLPBA2004语料集上达到了74.64%的F值。针对生物医学文献中关于疾病的命名实体识别存在类型不明确、精度低的问题,提出了基于疾病本体的标注方法,使用标准词表对疾病概念进行标注和标准化。采用双层半马尔科夫条件随机场模型对疾病实体进行识别,包括在文本中的位置信息和标识。随后,通过计算疾病实体和疾病本体中概念的相似度对已识别的疾病进行标注。最后,疾病实体根据相似度分别被识别为疾病概念和疾病实例。该实验基于Arizona疾病语料集并取得了很好的实验结果。研究了基于文本发现的疾病语义关系挖掘。首先对文本进行疾病本体和基因本体的标注,建立基于文本的描述疾病和基因功能关系的语义网络。其次,从网络中抽取相似的子图并由子图的相似度来推导疾病之间的关系。从MEDLINE中随机选取了初始语料集,该实验获得了较好的性能并能够发现疾病之间的潜在关系。研究了关于疾病的假设生成问题。通过探索疾病与基因功能、药物实体之间的语义网络,抽取文本中与疾病有关的子语义网络,提取疾病与其他实体之间的语义关系。使用主题模型对相关实体进行语义扩展,并按照四类主题对文章进行分类,包括疾病与疾病,疾病与基因功能,药物与基因功能,以及疾病与药物。并在以上分类结果的基础上,根据句子级的概念共现和实体间的语义关联,以找出实体间隐含的关系。通过上述方法构建的疾病网络具有较强的实用性,能够对疾病之间、疾病和基因、药物和基因、疾病和药物之间的假设生成进行预测,为科研人员进行临床验证提供依据。