【摘 要】
:
随着网络技术的发展,越来越多的学术文献以电子文档的形式公开出版。其中,生物作为一门实验学科,文献多为论述实验发现,比如基因、表型、蛋白质相关的调控、作用和表达信息。随着对生命科学关注度的增加,生物文献中的信息挖掘和理解也受到越来越多的关注。其中,图片和表格等信息往往展示了一篇文献中的实验过程和实验结果等核心信息,所以对文献中的图表信息的解读显得尤为重要。如何通过文本挖掘的方法从大量文献中对这些结果
论文部分内容阅读
随着网络技术的发展,越来越多的学术文献以电子文档的形式公开出版。其中,生物作为一门实验学科,文献多为论述实验发现,比如基因、表型、蛋白质相关的调控、作用和表达信息。随着对生命科学关注度的增加,生物文献中的信息挖掘和理解也受到越来越多的关注。其中,图片和表格等信息往往展示了一篇文献中的实验过程和实验结果等核心信息,所以对文献中的图表信息的解读显得尤为重要。如何通过文本挖掘的方法从大量文献中对这些结果进行自动化的提取和解读有着重要的研究意义。本文研究生物文献中的表格挖掘,由于XML格式的文献仅覆盖少量文献,所以本文采用PDF格式的文献。目前通用的表格挖掘工具在生物文献中效果不好,因此本文提出了一套对生物文献的表格进行提取和语义理解的流程。本文以QTL表格为研究对象,从文献中挖掘出QTL信息并对QTL信息进行整理和解读。主要研究工作如下:(1)提出了一套生物文献的表格提取流程,包括文献中表格的定位,结构分析,信息提取。针对生物文献中表格以三线表的形式呈现的特点,本文基于二值图像,利用连通值对文献中的表格进行定位和结构分析。针对不同结构的表头,本文对异构表格的表头进行了标准化。相比通用的表格挖掘工具TableSeer和文档转化工具BCL,我们能获得更好的F值。(2)建立了一套基于上下文感知对文献中表格进行语义解析的方法。首先,基于语义三元组对提取出的表格进行筛选,并基于预定义的规则对表格列进行筛选。然后对表格从表格语义和表格相关文本两个方面进行语义解读。针对表格数据,利用外部知识库对表格中的生物实体进行语义标注。针对文本数据,对文献中和表格相关的文本进行筛选,形成表格句子摘要。最后,使用依存树对摘要句子进行句法分析,基于自定义的规则,从句子中提取方法、地点、亲本等表格补充信息。(3)构建了一个包含九种常见作物的QTL数据库。QTL数据作为关联数量性状和基因的数据,受到生物研究者的广泛关注。通过PubMed数据库检索并下载九种物种的QTL定位相关文献,基于以上表格挖掘流程,从文献中对QTL表格进行挖掘。为了对提取的QTL数据进行进一步的生物学解释,结合物种的参考基因组信息和基因信息,将QTL区间从遗传图谱映射到物理图谱,给出QTL区间的基因,并对QTL数据进行可视化。为后续性状、基因的相关研究提供便利。
其他文献
刚地弓形虫(Toxoplasma gondii,T.gondii)是一种对人类危害非常严重的人兽共患原虫,感染期包括包囊、卵囊和速殖子。速殖子依赖于寄生在细胞中生存,对自身的生存环境要求较高
辣根过氧化物酶(HRP)是一种由无色蛋白质和棕色铁卟啉组成的糖蛋白。目前,HRP广泛用于污水处理、食品工业和催化反应。然而,HRP提纯于植物,在纯化过程中很容易失活,使其生产成
图像语义分割技术是图像处理领域的重要课题之一,是图像分类、目标检测等任务的关键技术,它的准确性和稳定性会影响图像处理任务的发展,因此,快速精确的语义分割一直是科研人员的研究目标。随着人工智能的发展,图像语义分割算法逐渐以深度学习方法为基础展开。但目前基于深度学习的图像语义分割算法通常以像素为基本单元进行处理,存在大量冗余,增加了算法的时间复杂度与空间复杂度。并且,更为精确的分割结果往往依赖更加复杂
植物建模长期以来一直是计算机图形学领域研究的重点之一。它是自然场景建模中必不可少的环境因素。植物形态结构复杂多样,大规模场景中需要诸多不同的形态结构。如何利用计算机高效快速地生成这些模型,已成为植物建模领域中的热点问题。为已知植物逆向推断其生长模型是一种有效的植物建模方法。针对目前方法中其描述方式不够直观、对输入要求严格以及耗时相对较长等问题,本文研究了基于参数智能提取的植物建模方法。利用该方法可
5-羟甲基糠醛(HMF)作为一种可以生产多种化学品的原材料越来越受到人们的重视,但随着工业化的发展,在生产过程中的污染物的产生也成为了重大的难题。本文采取了一种绿色环保
作物杂草化一直以来都是作物学领域的一大难题,尤其是杂草稻(Oryza sativa f.spontanea)的起源与演化,至今尚未破解。杂草稻具有很强的生态适应性,但其种群独特的遗传特征是如何被逐渐塑造的还不是十分清楚。高纬度杂草稻是伴生在粳型栽培稻中的一类常见的稻田杂草型水稻,它具有典型的杂草入侵特性,如强大的繁殖能力、侵入性、资源竞争和高表型可塑性,此外还严重缺乏可用于控制的除草剂。同时,杂草
为了检测EMCV是否通过内吞途径感染宿主细胞,本研究使用内吞途径抑制剂作用于BHK-21细胞后进行EMCV攻毒,通过病毒滴度、病毒拷贝数和病毒结构蛋白VP1的检测发现EMCV的感染受到抑制,提示EMCV可通过内吞途径感染BHK-21细胞。然后在EMCV感染BHK-21细胞的过程中对内吞途径标志蛋白EEA1和病毒结构蛋白VP1进行定位检测,发现二者在病毒感染细胞过程中共定位现象明显,证明EMCV可通
泛在电力物联网是以电力系统为核心,结合智能终端传感器、通信网、人工智能和云平台技术构成的复杂多网流系统,是实现能源互联网的重要举措。群智感知因其强大的数据获取能力,能很好地解决大规模感知网络中部署维护成本高的关键难题,已经成为物联网领域研究热点之一。然而,群智感知网络中移动用户自私性和网络信息非对称性,使得移动用户在没有任何激励的前提下,不愿高效参与感知任务,从而降低感知数据的质量和群智感知的性能
随着工农业三废排放的增加和砷制剂在畜禽生产上的应用,使得砷在水体、土壤和空气中广泛存在。长期砷暴露会导致动物慢性砷中毒,对畜牧业生产造成巨大的经济损失。许多研究证
随着时代的发展,能源短缺和环境问题已引起世界各国的广泛关注。分布式发电技术作为一种利用可再生能源的方式,对于解决环境问题,弥补能源短缺具有重要意义。独立微电网在解决偏远地区供电可靠性问题和提高电网的新能源利用率方面具有独特的优势。由于风能和太阳能的随机性,在孤岛运行的微电网中,常常需要采用混合储能系统来提升供电的稳定性。如何通过混合储能系统的容量的优化配置,达到节省微网总投资,提高新能源利用效率,