基于词典与机器学习的基因命名实体识别机制研究

被引量 : 0次 | 上传用户:fdsth5x1
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
基因命名实体识别是在分子生物学及医学领域对基因、RNA、DNA蛋白质等专业词汇进行识别和分类。海量的生物医学文献为挖掘文本中的隐含知识提供了条件,为了得到基因、蛋白质等命名实体之间的关联关系,首先要在文献中识别基因、蛋白质等命名实体,因此基因命名实体识别是知识关系抽取、知识关系计算等文本挖掘技术的基础。基于词典的命名实体识别方法简单实用,很容易在应用系统中部署使用,但是识别效果受限于词典的规模与质量。基于机器学习的命名实体识别方法不仅可以识别出训练语料中已标注的基因命名实体,而且可以较好的识别出新出现的基因命名实体,但是识别效果取决于语料库的质量和数量,因此目前还处于试验探索阶段。为了充分利用基于词典方法在实用性方面的优势以及机器学习方法在识别新命名实体方面的优势,本文提出了基于词典和机器学习相结合的基因命名实体识别方法,并在以下几个方面进行了探索和研究。首先,本文以UMLS作为术语来源,通过UMLS的语义类型获取基因领域术语,并将基因术语按照实体语料的格式进行转换,构建基因实体词典。其次,总结了已有研究中基因命名实体特征的构建方法,并创造性的提出了词典特征的构建方法,最终本文基于词典和语料构建了15类基因命名实体特征。再次,本文基于GENIA3.02语料以及开源的实体识别工具CRF++,构建了词典与机器学习相结合的基因命名实体识别模型,并进行了大量有针对性的实验和测试。实验结果表明,与基于机器学习的实体识别方法相比,本文提出的词典与机器学习相结合的方案,在获得较高的实体识别性能的同时,能够有效的降低实体识别的时间复杂度。最后,基于实验结果和数据分析,本文提出了基于词典和机器学习的基因命名实体识别机制,对实验结果进行了讨论并提出了下一步研究建议。
其他文献
1949年新中国成立后,国家建设首先从兴修水利水电工程和铁路交通干线开始,由此产生了数以千万计的工程移民。20世纪80年代初,生态环境受到国家重视,一场以谋求经济发展、改善
随着当今社会信息技术的高速发展以及不断成熟,作为大型综合医院和专科医院,发展和完善医院的网络在现在讲求高效率和提升服务标准的一项重要任务,也是追求效益和发展的趋势。某
藏族,世代生活在青藏高原上的少数民族,有着悠久的历史、独特的地理环境和丰富多彩的传统文化。藏文化五大学科分别是佛学、文学、哲学、医药学、工艺学。传统工艺又是藏族非
语言是文化的载体,在两种不同语言的转换过程中必然带来文化的障碍。消除这种文化冲突和空缺既是文学翻译成功的必要,也是一项重大难题,尤其对于文化底蕴深厚的中国经典文学作品
土壤侵蚀威胁着人类的生存环境,严重制约着全球社会经济的持续发展,我国也是受土壤侵蚀影响比较严重的国家。钦江流域作为广西钦州市人民的母亲河,近年来受人为和自然因素影响,水
建筑节能标准是推动建筑节能发展的重要工具。从建筑节能标准的现状研究,以统计分析的方法阐述标准存在的主要问题。以建筑节能目标为主要依据,将其标准的演进划分为四个阶段
高强耐磨铜合金是一类重要的铜合金,被广泛应用于军用和民用工业中。目前,改善这类铜合金性能的方法除进行成分优化设计外,选择合适的成形工艺也是重要的途径。热挤压变形工艺能
随着信息技术的发展和入学新生信息素养的提升,大学公共计算机教学面临全面改革的要求。本文就计算机公共课分层分类教学、教学方式的变更、教材建设与教学资源建设、通用教
随着科学技术的快速发展,通讯产品更新换代越来越快,通过最少的投入获得最大的产出的研发生产率竞争时代已经到来。传统的研发管理模式只是简单化、层级化的组织结构,确实可以帮
炼油厂的加氢工艺废水含有大量的硫化氢、氨、油、酚等污染物。废水中硫化氢浓度高、易挥发、毒性大等,是处理过程中关注的焦点,故一般称这种废水为含硫废水。空气中的氧气是温