面向胃癌药物重定位的生物医学知识图谱构建与应用研究

来源 :中国医科大学 | 被引量 : 0次 | 上传用户:JIMCZ
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
目的:胃癌是一种严重的恶性肿瘤,对人民群众生命健康威胁极大,据统计胃癌占全球癌症的6%,是最常被诊断出的恶性肿瘤之一。由于胃癌早期症状不明显,80%患者面诊已达到晚期,手术治疗效果不佳,术后五年生存率较低,需采用药物进行化疗或靶向治疗等方式。现有相关药物治疗虽然具有一定治疗效果,但是对于胃癌尤其是已进入晚期阶段的病情治疗效果依然有限,因此亟需研发具有更好疗效的靶向药物投入到临床使用中。药物研发是一个资金投入高、耗时高、成功率低的过程,一旦药物研发失败,人力投入和资金损失非常大,也影响了患者的治愈率。与从头开始进行药物研发相比,利用目前已有药物进行药物重定位成为了一个寻找胃癌新靶向药物的重要方式。数据挖掘是进行药物重定位的途径之一,而文本挖掘是数据挖掘中的一个重要方法。目前已有利用文本挖掘进行特定疾病药物重定位的一些探索,但是已有文本挖掘方法过于依赖生物医学实体的共现和关键词语义推理,对于利用知识的多维度整合及知识推理进行潜在药物发现存在一定不足。因此,利用基于大规模文本预训练模型的文本挖掘方法并结合具有知识关联和推理能力的知识图谱实现药物重定位成为了一个重要方向。本研究对胃癌、药物副作用和基因表达相关研究文献利用命名实体识别算法自动化识别药物、基因、疾病和副作用实体,利用关系抽取算法自动化抽取相关药物实体、基因实体、疾病实体、副作用实体间的复杂关系。将已取得的非结构化知识与从药物靶点、药物适应症和药物基因关系相关数据库中获取的结构化知识进行处理和整合,构建面向胃癌药物重定位的知识图谱。基于知识图谱利用自然语言处理技术构建问答系统。对知识图谱进行表示学习,利用链接预测的方法对潜在治疗药物进行打分排序,确定对胃癌治疗具有潜在治疗作用的老药,实现药物重定位。研究方法:1胃癌相关实体识别与关系抽取(1)数据获取与整合 从Pub Med文献数据库分别下载有关胃癌、药物副作用和基因表达的论文的标题和摘要,作为非结构化数据的来源。从Drug Bank、SIDER、Binding DB、TTD等数据库获取药物相互作用、代谢酶、药物靶点、载体和转运体、药物副作用、药物与基因关系、药物适应症等关系数据。将UMLS、Me SH、Entrez Gene、Uniprot、HGNC和DAVID数据库中的数据加以整合,构建药物、基因、疾病和副作用概念映射词表,将在非结构化和结构化数据中获取的药物、基因、疾病和副作用映射到词表中,利用唯一概念表示相关知识。(2)药物、基因、疾病和副作用实体的识别。基于预训练模型的深度学习算法Pub Med BERT+CRF,在药物副作用、基因表达和胃癌研究相关文献数据集中进行命名实体识别。利用Biocreative V CDR、NCBI-Disease、Biocreative II Gene Mention和JNLPBA语料库进行训练,训练出能够识别药物实体、基因实体和疾病实体的命名实体识别模型,并与其他模型进行效果对比。(3)与药物重定位有关的特定关系抽取。本研究基于预训练模型的深度学习算法Pub Med BERT+Text-CNN,将实体关系抽取任务转化为有监督的关系分类任务。以实体对和所在文本组成句子对作为模型输入进行关系抽取,突出实体对和所在文本的交互关系。利用Biocreative V CDR语料库和基因疾病语料库进行训练,并与其他模型进行效果对比,训练出能够识别药物副作用“导致”(cause)关系、基因疾病“生物标志物”(biomarker)关系和基因疾病“突变引起”(mutation_cause)关系的模型,在药物副作用、基因表达和胃癌相关文献数据集中进行三元组关系抽取。2胃癌知识图谱与问答系统构建 利用Protégé5.2.0构建知识图谱的数据模型,定义知识图谱的概念和关系。利用Neo4j数据库进行知识图谱的三元组存储和整合。基于语义解析的方法,利用命名实体识别、意图识别和槽填充识别自然语言问题信息,转换为Cypher查询语言进行答案搜索,构建基于知识图谱的问答系统。基于Django框架构建前端查询页面,作为知识图谱前端交互问答系统。3胃癌药物重定位预测 利用知识图谱的表示学习理论构建知识图谱的图嵌入表示,对比Trans E算法、Trans R算法、Dist Mult算法和Compl Ex算法在图嵌入表示的效果。基于最佳模型的预训练权重,利用知识图谱链接预测方法,进行胃癌药物重定位计算,筛选可能应用于胃癌治疗的现有药物,并利用相关文献信息进行验证。结果:1胃癌相关实体识别与关系抽取结果(1)数据获取与整合结果。检索并下载药物副作用研究相关论文摘要集共205519篇,基因表达摘要集共437671篇,胃癌研究文献摘要集共81567篇。Drug Bank中获取药物16424种,药物相互作用1379271对,药物代谢酶关系对5469个,药物靶点对21415个,药物载体关系对867个,药物转运体关系对3135个;从SIDER数据库获取了140064个药物-副作用对。在Binding DB、TTD数据库和Drug Bank数据库中获取了51000个药物靶点关系对。从DGIdb数据库和LINCS L1000数据库获取了activator关系对20191个、inhibitor关系对32767个、agonist关系对1402个、antagonist关系对1812个。从DID数据库中获取了188411个药物适应症关系对。概念映射词表获取了Me SH ID与UMLS CUI ID映射关系共454685对,UMLS CUI ID与Drug Bank ID映射关系共10227对。利用HGNC提取了Entrez Gene ID与Uniprot ID映射关系对共20589个,同时以DAVID数据库Entrez Gene ID与Uniprot ID在线转换结果作为词表补充。(2)药物、基因、疾病和副作用实体的识别结果。Pub Med BERT+CRF模型在BC5CDR5数据集、BC2GM数据集和JNLPBA数据集的表现均优于其他模型,在NCBI-Disease数据集略低于Bio BERT+CRF模型。基于命名实体识别模型,药物副作用文献数据集共识别药物实体682639个,疾病和副作用实体510438个;基因表达文献数据集共识别基因实体1318936、疾病实体658078个;胃癌研究文献数据集共识别基因实体184635个和副作用实体140517个。(3)与药物重定位有关的特定关系抽取结果。Pub Med BERT+Text-CNN在Biocreative V CDR语料库和基因疾病语料库的表现均优于其他模型。在药物副作用文献集中共抽取药物副作用“导致”(cause)三元组关系对628520个。在基因表达文献集中抽取基因疾病“生物标志物”(biomarker)三元组关系对1056952个,基因疾病“突变引起”(mutation_cause)三元组关系对197364个。在胃癌研究文献集中抽取基因疾病“生物标志物”(biomarker)三元组关系对162895个,基因疾病“突变引起”(mutation_cause)关系对54678个。与SIDER数据库获取的药物副作用关系对进行整合后共获取578078对药物副作用“导致”(cause)三元组关系。基因表达文献集和胃癌研究文献集获取的三元组关系进行整合后共获取基因疾病“生物标志物”(biomarker)三元组关系对930512个,基因疾病“突变引起”(mutation_cause)关系对148472个。2胃癌知识图谱与问答系统构建结果 利用本体模型定义了Drug、Gene和Disease三类概念,定义了cause、carrier_with、ddi_with、enzyme_with、target_with、transporter_with、biomarker、mutation_cause、treat、inhibitor、agonist、activator和antagonist13类关系。在Neo4j数据库中导入药物、基因、疾病、副作用等94093个实体,3341386个三元组关系,构建了面向胃癌药物重定位的知识图谱。对Neo4j数据库存储的知识图谱进行了查询验证,能够查询到相关实体和关系。基于面向胃癌药物重定位的知识图谱,构建了问答系统与查询页面。在基于Django构建的前端查询页面中,进行了问答系统的查询验证,系统可以实现对自然语言问题解析后返回答案,同时也能够实现实体和实体关系的查询与可视化展示。3胃癌药物重定位预测结果 在构建的知识图谱上,Trans E模型在MR、MRR、HITS@1、HITS@3、HITS@10的指标分别为7.466、0.754、0.659、0.822、0.931,优于其他模型表现,仅有Trans R模型在MR上略优于Trans E模型,因此本研究选择Trans E模型的预训练向量作为知识图谱的图嵌入表示。在预测出的候选7526种药物中计算得出了得分排名前80的药物,其中共11种药物在已有文献中提及其有治疗胃癌的潜在应用价值,分别为地高辛(Digoxin)、贝派地酸(Bempedoic acid)、匹伐他汀(Pitavastatin)、阿齐沙坦酯(Azilsartan medoxomil)、格列本脲(Glyburide)、卡利拉嗪(cariprazine)、硫丙拉嗪(Thioproperazine)、噻奈普汀(Tianeptine)、丙咪嗪(Imipramine)、噻奈普汀(Tianeptine)和替拉那韦(Tipranavir)。结论:1.本研究以胃癌为例,证明利用知识图谱进行药物的重定位是可行的。2.利用CRF和Text-CNN改进了Pub Med BERT在相关生物医学数据集命名实体识别和关系抽取的效果,算法表现优于其他预训练模型的算法。Pub Med BERT+CRF的命名实体识别算法和Pub Med BERT+Text-CNN算法能够实现对药物副作用、基因表达和胃癌研究文献中生物医学实体和关系的识别与抽取。3.基本体理论的数据模型和Neo4j相结合的方法整合了三元组实体关系,能够较好地应用于知识图谱的构建。实现了基于知识图谱和自然语言处理技术的问答系统构建。4.基于知识图谱的表示学习和链接预测方法,能够应用于胃癌药物重定位的计算,在一定范围内初步检验效果并表现出较好的发展趋势。
其他文献
<正>体育与健康教育是促进学生全面发展和健康成长的重要途径,加强体育与健康教育重在提升体育与健康教学质量。要想提升体育与健康教学质量,就要提高体育与健康作业设计水平,这也是贯彻《关于加强义务教育学校作业管理的通知》文件精神的具体体现。为此,本文对小学体育与健康大单元作业设计进行探究,结合教学实践,以“水平一‘足球游戏’为例”展开探讨。
期刊
背景及目的:血管重塑是导致人类心血管事件的重要病理基础,也是高血压病导致机体并发症如脑卒中、心力衰竭及肾功能衰竭的主要原因之一。血管平滑肌细胞是动脉血管的主要成分,血管平滑肌表型转化是血管重塑的关键过程。血管紧张素Ⅱ(angiotensinⅡ,AngⅡ)可通过多条信号通路作用于平滑肌细胞,促进其发生表型转化等,进而促进血管重塑,因此被认为是高血压血管重塑的经典造模药物。线粒体通常被视为细胞动力源,
学位
目的:肝细胞癌(hepatocellular carcinoma,HCC)患者大多数肝内存在弥漫性小病灶或者在单结节周围伴有卫星灶,容易发生肝内转移。肝内微小的转移灶,即微转移,是造成肝癌高转移率的主要原因。肝癌微转移是指播散于人体多种组织器官的微小肿瘤灶,通常没有显著的临床症状。肿瘤微环境是影响HCC发生发展的重要因素,其中低氧、低PH等理化微环境是促进肝癌侵袭迁移的关键因素,其具体机制目前仍未
学位
目的:系统评价沙库巴曲缬沙坦(sacubitril valsartan, SV)对比血管紧张素转化酶抑制剂(angiotensin converting enzyme inhibitors, ACEI)或血管紧张素受体拮抗剂(angiotensin receptor blockers, ARB)治疗心梗后心衰(post myocardial infarction heart failure, P-
期刊
目的:1型糖尿病(Type 1 diabetes,T1D)是由于患者体内缺少调节血糖的胰岛素而引起的高血糖症状,其发病机制主要是由于免疫系统攻击胰腺β细胞导致其不可逆转的破坏,从而引起胰岛素分泌不足。其发病过程与CD4+T细胞亚群密切相关,主要涉及Th1、Th17和Treg细胞。研究表明,齿龈间充质干细胞分泌的外泌体具有免疫调节作用,且IL-1β可以促进外泌体的分泌,故本研究设置了对照组、GMSC
学位
研究背景:甲状腺癌是一种常见的内分泌恶性肿瘤,近几十年来,其发病率逐渐升高并趋于年轻化,而甲状腺乳头状癌(papillary thyroid carcinoma,PTC)是甲状腺癌中最常见的病理分型,其发病率高达80%以上。PTC虽属于惰性肿瘤,但部分PTC患者在早期确诊时即可出现颈部淋巴结转移,且转移率高达30%左右,严重影响患者的生活质量及预后。因此,进一步揭示参与PTC进展的潜在作用机制,寻
学位
报纸
目的:肝细胞癌(Hepatocellular carcinoma,HCC)是最普遍的一种原发性肝癌,全球排名第五。大多数HCC患者预后不良,因为早期诊断有限,且晚期肝细胞癌的有效治疗方案较少。即使积极治疗,如肝移植、切除、经皮消融、经动脉化疗栓塞,HCC仍有可能复发和转移,5年生存率不到20%。此外,传统的化疗和分子靶向药物都受到肿瘤异质性以及肿瘤中可能产生的固有和获得性耐药性的阻碍。这些特征限制
学位
目的:子痫前期是妇产科常见疾病并发症,目前对子痫前期患者采用了解痉、降压、镇静、利尿等保守治疗方法,虽能暂时缓解症状,但目前最有效的治疗方法仍是适时终止妊娠,产妇面对心脑肾等严重并发症的同时,也因此常导致早产及早产相关的围生儿患病率和病死率增加。在子痫前期疾病的病因机制研究中,滋养细胞浸润能力减弱并因此而造成的受精卵着床过浅及后续异常的子宫螺旋小动脉重铸最为普遍认可接受,对子痫前期患者改善妊娠早期
学位
目的:脓毒症是由宿主对感染的异常反应而引起的器官功能紊乱。而微循环和内皮功能稳态是维系机体脏器功能的重要防线。从大动脉到静脉,内皮细胞无处不在,其作为血管非常规免疫细胞,尽管结构因器官而异,但这种单细胞层在调节血管张力、炎症反应、凝血以及调控通透性等方面,发挥着至关重要的作用。此外,内皮细胞也参与了从外周到近心血管的信息传递,从而使灌注与代谢需求精确匹配。脓毒症时内皮细胞经历了多种表型和功能的改变
学位