论文部分内容阅读
胶质瘤的发病率占颅内肿瘤发病率的40-50%。目前,通过分子遗传学方法来探讨胶质瘤的致病机制并对其各亚型进行临床靶向治疗成为当前的研究热点。在当今人工智能和自然语言处理等信息技术高度发展的时代,在生物医学领域公开发表的研究文献也呈爆炸式的增长。揭示生物分子间关系的需求促进生物医学与计算机技术的深度融合,从生物命名实体识别、相互作用关系抽取,到生物事件抽取,基于文本挖掘和信息抽取技术在分子生物领域的研究的不断往前快速发展。本文以非结构化的生物医学文献为数据源,研究蛋白质命名实体识别(Named Entity Recognition,NER)和蛋白质相互作用关系抽取(Protein-Protein Interaction Extraction,PPIE)的关键技术,通过提取有效的结构化信息揭示疾病的致病机制。论文的主要工作如下:(1)利用条件随机场(Conditional Random Fields,CRF)模型进行蛋白质NER。首先进行分词、词性标注和组块分析等,经过特征抽取引入词特征、词性特征、组块特征、词缀特征、词形特征、关键词特征、停用词特征和拼写特征等丰富的文本特征集,然后利用序列前向选择启发式算法进行特征选择,构建CRF特征模型进行蛋白质NER。在人工标注的JNLPBA 2004 Genia4ER标准语料上取得综合F值71.46%。(2)以CRF模型识别的蛋白质命名实体为基础,利用word2vec、依存句法分析和支持向量机(Support Vector Machine,SVM)模型进行PPIE。通过依存句法分析器构建语义信息句子结构特征集,利用word2vec构建关系向量,结合SVM分类器进行蛋白质相互作用抽取。实验证明这些特征进一步改进了SVM分类器,显著提高系统性能。(3)通过E-utilities接口获取Pubmed数据库中的有关胶质瘤蛋白质的文本数据,以胶质瘤蛋白质的NER和PPIE为例,阐述了基于CRF模型的蛋白质NER和基于依存句法分析和SVM模型的PPIE在生物医学中的实际应用。