面向生物医学文本的疾病关系挖掘模型及算法研究

被引量 : 0次 | 上传用户:A359714977
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
生物医学领域的文献记录展现了该领域内的大量成果和实验发现。生物医学文本挖掘技术作为研究热点之一,可以快速有效地在海量的文献中获取相关知识。生物医学文本挖掘技术包括信息检索、文本分类、命名实体识别、关系抽取、假设生成等。随着基因技术的飞速发展,人们迫切希望从分子水平认识各种疾病的发生机制。在生物医学领域的文献中针对疾病进行关系的挖掘并构建疾病网络,挖掘与疾病相关的隐藏信息,给生物医学领域的科学家提供假设生成的依据,对于人类的发展、疾病的预防以及新药的研制都有着重要的意义。首先在生物医学命名实体识别获得良好性能的基础上给出了疾病和其他实体的本体标注方法,然后对文本进行分类以后再标注,进而进行关系的抽取和假设生成,从而对疾病和其他实体的关系进行预测。现有的生物医学命名实体识别方法将实体边界探测和语义标识任务在一个模型中完成,另外生物医学命名实体往往很长,相对单词级的特征而言,构建实体级的特征对于命名实体识别任务更加自然。因此,提出一种基于双层半马尔科夫条件随机场的实体识别方法,将任务划分成两个阶段来进行标记将是一个可行的解决方法。在第一阶段,命名实体和非实体被检测出来,分别标记为C和O。在第二阶段,命名实体被标记为具体的实体类别如蛋白质、DNA、RNA、Cell_line、Cell_type等。针对每一个阶段,挖掘了新的有用的特征。鉴于有些特征只作用于某一阶段,双层模型极大的减少了特征的维度。通过实验验证了算法的有效性,较之现有算法,基于双层半马尔科夫条件随机场的实体识别方法在JNLPBA2004语料集上达到了74.64%的F值。针对生物医学文献中关于疾病的命名实体识别存在类型不明确、精度低的问题,提出了基于疾病本体的标注方法,使用标准词表对疾病概念进行标注和标准化。采用双层半马尔科夫条件随机场模型对疾病实体进行识别,包括在文本中的位置信息和标识。随后,通过计算疾病实体和疾病本体中概念的相似度对已识别的疾病进行标注。最后,疾病实体根据相似度分别被识别为疾病概念和疾病实例。该实验基于Arizona疾病语料集并取得了很好的实验结果。研究了基于文本发现的疾病语义关系挖掘。首先对文本进行疾病本体和基因本体的标注,建立基于文本的描述疾病和基因功能关系的语义网络。其次,从网络中抽取相似的子图并由子图的相似度来推导疾病之间的关系。从MEDLINE中随机选取了初始语料集,该实验获得了较好的性能并能够发现疾病之间的潜在关系。研究了关于疾病的假设生成问题。通过探索疾病与基因功能、药物实体之间的语义网络,抽取文本中与疾病有关的子语义网络,提取疾病与其他实体之间的语义关系。使用主题模型对相关实体进行语义扩展,并按照四类主题对文章进行分类,包括疾病与疾病,疾病与基因功能,药物与基因功能,以及疾病与药物。并在以上分类结果的基础上,根据句子级的概念共现和实体间的语义关联,以找出实体间隐含的关系。通过上述方法构建的疾病网络具有较强的实用性,能够对疾病之间、疾病和基因、药物和基因、疾病和药物之间的假设生成进行预测,为科研人员进行临床验证提供依据。
其他文献
随着我国经济的不断发展,社会越来越需要大量的高素质专门人才。中等职业教育作为我国国民教育体系及终身教育体系的重要组成部分,大力发展中等职业教育对于全面提高国民素质,完
由于我国各个地区的自然、地理环境以及施工技术水平的差异,锚喷网支护技术在公路工程高陡边坡防护应用实践中存在着一些问题,这些问题不仅影响着整个工程的质量,还威胁着广
采用不同粒径和比表面积的银粉制备了电容器电极银浆,研究了在高温烧结条件下银粉的物理化学参数对BaTiO4瓷介电容器电容量与电容损耗的影响。利用比表面积测试仪(SSAA),激光
作为衡阳市首届"宏志班"(政府与学校共同出资所招收的特困家庭子女中品学兼优者)的班主任,笔者两年来对50位特困家庭出身学生的心理现状进行了专门的调查、分析与研究,现将其
水闸建成投入运营以后,由于基础及地基本身形状的改变,在外力及闸体本身内部应力的作用下,水闸将会产生垂直位移、水平位移等各方面的变形,因此需要对水闸进行周期性的变形监
根据风能、太阳能及水能等绿色能源的资源优势特点,提出了一种风-光-水-储多能源互补的独立型微电网系统,并针对该系统设计了基于IEC61850标准规约的微电网三层监控体系。基
笔者提出整合技术概念,即所有的工人整合在一起操作生产系统;如果任何一名工人缺失,则生产系统不能运行。如果一种技术严格具有整合技术的性质,那么在到达能使生产系统运行之前,工
随着煤矿开采深度的增加和开采强度加大,高应力、高瓦斯使得冲击地压的发生日趋严重和复杂。针对含瓦斯煤层,考虑瓦斯对煤层冲击地压的作用机制,将瓦斯与应力、声电、微震等指标
本论文采用类水滑石及其煅烧后得到的复合金属氧化物作催化剂,并在乙二醇作为小分子溶剂条件下,用于醇解废弃的PET聚酯材料。实验通过X-RD、IR等现代表征手段对所得催化剂进行
全球信息栅格是由一套全球互连的端到端的信息系统、相关过程及专业人员组成,旨在根据作战部队、决策人员、支援人员的要求收集、处理、存储、分发和管理信息。该文首先分析