论文部分内容阅读
基因命名实体识别是在分子生物学及医学领域对基因、RNA、DNA蛋白质等专业词汇进行识别和分类。海量的生物医学文献为挖掘文本中的隐含知识提供了条件,为了得到基因、蛋白质等命名实体之间的关联关系,首先要在文献中识别基因、蛋白质等命名实体,因此基因命名实体识别是知识关系抽取、知识关系计算等文本挖掘技术的基础。基于词典的命名实体识别方法简单实用,很容易在应用系统中部署使用,但是识别效果受限于词典的规模与质量。基于机器学习的命名实体识别方法不仅可以识别出训练语料中已标注的基因命名实体,而且可以较好的识别出新出现的基因命名实体,但是识别效果取决于语料库的质量和数量,因此目前还处于试验探索阶段。为了充分利用基于词典方法在实用性方面的优势以及机器学习方法在识别新命名实体方面的优势,本文提出了基于词典和机器学习相结合的基因命名实体识别方法,并在以下几个方面进行了探索和研究。首先,本文以UMLS作为术语来源,通过UMLS的语义类型获取基因领域术语,并将基因术语按照实体语料的格式进行转换,构建基因实体词典。其次,总结了已有研究中基因命名实体特征的构建方法,并创造性的提出了词典特征的构建方法,最终本文基于词典和语料构建了15类基因命名实体特征。再次,本文基于GENIA3.02语料以及开源的实体识别工具CRF++,构建了词典与机器学习相结合的基因命名实体识别模型,并进行了大量有针对性的实验和测试。实验结果表明,与基于机器学习的实体识别方法相比,本文提出的词典与机器学习相结合的方案,在获得较高的实体识别性能的同时,能够有效的降低实体识别的时间复杂度。最后,基于实验结果和数据分析,本文提出了基于词典和机器学习的基因命名实体识别机制,对实验结果进行了讨论并提出了下一步研究建议。