基于词典与机器学习的基因命名实体识别机制研究

被引量 : 0次 | 上传用户：fdsth5x1

【摘要】

：

基因命名实体识别是在分子生物学及医学领域对基因、RNA、DNA蛋白质等专业词汇进行识别和分类。海量的生物医学文献为挖掘文本中的隐含知识提供了条件,为了得到基因、蛋白质

【作者】

：

夏光辉

【发表日期】

：

2013年期

【关键词】

：

基因命名实体命名实体识别词典机器学习条件随机域

下载到本地 , 更方便阅读

下载此文赞助VIP

声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架

论文部分内容阅读

基因命名实体识别是在分子生物学及医学领域对基因、RNA、DNA蛋白质等专业词汇进行识别和分类。海量的生物医学文献为挖掘文本中的隐含知识提供了条件,为了得到基因、蛋白质等命名实体之间的关联关系,首先要在文献中识别基因、蛋白质等命名实体,因此基因命名实体识别是知识关系抽取、知识关系计算等文本挖掘技术的基础。基于词典的命名实体识别方法简单实用,很容易在应用系统中部署使用,但是识别效果受限于词典的规模与质量。基于机器学习的命名实体识别方法不仅可以识别出训练语料中已标注的基因命名实体,而且可以较好的识别出新出现的基因命名实体,但是识别效果取决于语料库的质量和数量,因此目前还处于试验探索阶段。为了充分利用基于词典方法在实用性方面的优势以及机器学习方法在识别新命名实体方面的优势,本文提出了基于词典和机器学习相结合的基因命名实体识别方法,并在以下几个方面进行了探索和研究。首先,本文以UMLS作为术语来源,通过UMLS的语义类型获取基因领域术语,并将基因术语按照实体语料的格式进行转换,构建基因实体词典。其次,总结了已有研究中基因命名实体特征的构建方法,并创造性的提出了词典特征的构建方法,最终本文基于词典和语料构建了15类基因命名实体特征。再次,本文基于GENIA3.02语料以及开源的实体识别工具CRF++,构建了词典与机器学习相结合的基因命名实体识别模型,并进行了大量有针对性的实验和测试。实验结果表明,与基于机器学习的实体识别方法相比,本文提出的词典与机器学习相结合的方案,在获得较高的实体识别性能的同时,能够有效的降低实体识别的时间复杂度。最后,基于实验结果和数据分析,本文提出了基于词典和机器学习的基因命名实体识别机制,对实验结果进行了讨论并提出了下一步研究建议。

其他文献

阿坝州茂县羌族的自愿移民研究

1949年新中国成立后,国家建设首先从兴修水利水电工程和铁路交通干线开始,由此产生了数以千万计的工程移民。20世纪80年代初,生态环境受到国家重视,一场以谋求经济发展、改善

学位

移民羌族文化适应自我责任法理社会

某医院网络系统的设计与实现

随着当今社会信息技术的高速发展以及不断成熟，作为大型综合医院和专科医院，发展和完善医院的网络在现在讲求高效率和提升服务标准的一项重要任务，也是追求效益和发展的趋势。某

学位

防火墙服务器网络规划虚拟局域网

藏族传统工艺的开发与保护研究

藏族,世代生活在青藏高原上的少数民族,有着悠久的历史、独特的地理环境和丰富多彩的传统文化。藏文化五大学科分别是佛学、文学、哲学、医药学、工艺学。传统工艺又是藏族非

学位

藏族藏族传统工艺开发与保护

论《围城》陌生化语言及其翻译策略

语言是文化的载体，在两种不同语言的转换过程中必然带来文化的障碍。消除这种文化冲突和空缺既是文学翻译成功的必要，也是一项重大难题，尤其对于文化底蕴深厚的中国经典文学作品

学位

《围城》陌生化效果翻译方法

基于RS/GIS的钦江流域土壤侵蚀定量评价

土壤侵蚀威胁着人类的生存环境，严重制约着全球社会经济的持续发展，我国也是受土壤侵蚀影响比较严重的国家。钦江流域作为广西钦州市人民的母亲河，近年来受人为和自然因素影响，水

学位

RSGISUSLE土壤侵蚀定量评价钦江流域

我国建筑节能标准演进研究

建筑节能标准是推动建筑节能发展的重要工具。从建筑节能标准的现状研究,以统计分析的方法阐述标准存在的主要问题。以建筑节能目标为主要依据,将其标准的演进划分为四个阶段

期刊

建筑节能标准发展现状演进阶段演进路径

热挤压变形高强耐磨Cu-17Ni-3Al-X合金的组织性能研究

高强耐磨铜合金是一类重要的铜合金，被广泛应用于军用和民用工业中。目前，改善这类铜合金性能的方法除进行成分优化设计外，选择合适的成形工艺也是重要的途径。热挤压变形工艺能

学位

铜镍合金热挤压微观组织力学性能摩擦行为

浅议大学公共计算机教学改革与教学资源建设

随着信息技术的发展和入学新生信息素养的提升,大学公共计算机教学面临全面改革的要求。本文就计算机公共课分层分类教学、教学方式的变更、教材建设与教学资源建设、通用教

期刊

教学改革计算机教材考试系统

T公司产品研发流程优化的研究

随着科学技术的快速发展，通讯产品更新换代越来越快，通过最少的投入获得最大的产出的研发生产率竞争时代已经到来。传统的研发管理模式只是简单化、层级化的组织结构，确实可以帮

学位

研发流程优化ASMEIDEF0

炼油厂加氢工艺废水的理论分析与综合治理

炼油厂的加氢工艺废水含有大量的硫化氢、氨、油、酚等污染物。废水中硫化氢浓度高、易挥发、毒性大等，是处理过程中关注的焦点，故一般称这种废水为含硫废水。空气中的氧气是温

学位

含硫废水空气催化氧化气液反应动力学双氧水氧化

基于词典与机器学习的基因命名实体识别机制研究

与本文相关的学术论文