论文部分内容阅读
当今生命科学研究的一个显著特点是不断涌现出海量的生物实验数据,绝大多数以论文形式发表在科学期刊上,以文本形式呈现出来。对于生物医学文献进行加工和集中处理,可以从中提炼出更多的生物信息。在生物医学研究中利用这些信息,有助于了解疾病产生的机制,促进疾病诊断技术的发展。以往从科学文献中提炼信息的方式是通过手工分析和注释,将非结构化的文本数据转化为结构化数据,存放在数据库中。生物医学研究人员现在面对的是海量文献,手工的方式显然已不再适用,必须发展新的信息处理技术去自动解析科学文献,快速提炼其中的生物信息,而文本挖掘则是解决问题的最好方法。
本文在分析生物医学文献特性的基础上,发展了将自然语言处理和本体技术结合,面向生物医学文献进行挖掘的方法。首先,采用网络蜘蛛技术将PubMed文献从网站中剥离;接着,用最大熵标注器对文献进行词性标注,将语法分析过程和语义分析过程分开,将语法分析的结果用专业的生物医学知识库进行标定,并通过TF-IDF来补充预测潜在生物学实体;最后将语法分析与语义分析的结果整合起来,进行生物学关联关系的抽取与分析。在此基础上,本文设计开发了基因疾病相关文献挖掘平台。该平台实现了对大量文献的进行快速自动挖掘,将挖掘结果以简洁的可视化形式呈现给用户,使用户能快速获得文献中的重要信息。通过使用存储过程及后台程序优化,使得挖掘平台的效率提高了32%;实验结果显示,对于生物学实体,平台挖掘的综合测评率为81.1%;在实体关系识别方面,综合测评率达到83.3%。最后,我们利用开发的文献挖掘平台,对孤独症相关文献进行挖掘,挖掘出了大部分的孤独症相关基因,以及与这些基因密切相关的GO注释信息,将挖掘结果以关系查询数据库形式保存,对于深入认识孤独症相关基因及基因功能、阐述基因与疾病之间的关系具有重要意义。