论文部分内容阅读
目的:从医学信息学的视角出发,旨在从生物医学文献数据中发现疾病与基因的关联关系。为从文献中发现疾病与基因的关联关系,建立基于信息抽取的疾病-基因关联关系发现模式。研究对关联关系的强度与深度进行定义与分析,从文献中发现疾病与基因的关联关系,实现基于文献数据的知识发现。应用PubMed中糖尿病并发症主题的文献数据进行实证研究,发现糖尿病并发症与基因的关联关系,论证揭示模式的科学性、在知识发现领域的合理性和可行性。通过对文献摘要数据进行文本挖掘,发现疾病关联基因及其规律,实现知识发现,为疾病的预防与治疗提供依据。方法:通过文献调研法系统详实地对医学文本挖掘、信息抽取等领域的国内外研究现状进行综述,并对研究相关的理论与方法进行述评。基于当前研究现状与理论方法基础,提出基于信息抽取的疾病-基因关联关系发现模式。关联关系发现模式可发现疾病与基因间的关联关系,并从关系的关联强度与关联深度进行关系的剖析与揭示。模式整合了本体理论和共词分析法、命名实体识别、关系抽取等技术的思想,从文献摘要中识别并抽取疾病与基因的关联关系。应用知识发现和文献计量学理论,定义并分析了疾病与基因关联关系的强度与深度:关联关系强度是由数据关联驱动的关系,模式应用聚类分析的方法分析疾病与基因关联关系强度;关联深度是由关系内涵驱动的关系,模式从语义关系和生物关系两方面揭示疾病与基因关联关系深度。以糖尿病并发症主题科技文献摘要进行模式实证。采用基于词典的实体识别技术,构建实体抽取规则,从文献数据中发现疾病实体与基因实体及二者间关联关系。从数据视角发现疾病与基因的关联强度,应用语义关系分析和生物信息学分析揭示疾病与基因关联关系深度,其中语义关系揭示了基因在疾病发生发展中的机制,生物信息学分析揭示了关联基因的生物进程。模式实证结果采用回溯分析的方法回溯至原摘要验证与讨论,发现疾病与基因的关联关系,实现生物医学领域基于文献框架下的知识发现。结果:(1)构建基于信息抽取的疾病-基因关联关系发现模式,模式能够从文献数据中发现疾病与基因的关联关系,定义并分析关联关系的强度与深度。(2)关联强度实证部分,模式从文献摘要数据中获得656个糖尿病肾病关联基因,基于关联基因的共现强度指数进行聚类分析,得到三类关联基因。其中高度关联基因可能是当前研究的理论依据,中度关联基因是当前研究的热点,低度关联基因是可能的知识发现,未来可能进一步发展成为研究热点。(3)关联深度实证部分,生物信息学的基因富集分析发现糖尿病并发症关联基因的蛋白作用通路主要为炎症反应通路和癌症通路;语义关系抽取可发现三类语义关系315个,其中作用关系结果218个,角色关系结果64个,调节关系结果33个。结论:(1)研究基于信息抽取提出疾病-基因关联关系发现模式,发现并定义了疾病与基因的关联关系。从数据关联的视角定义了关联关系的关联强度,定量地提出关联强度指数。从生物关联和语义关联的视角定义了关联关系的关联深度,定性地对语义关系分类。关联关系发现模式多角度、多层次揭示了生物医学领域的实体关联关系,促进医学信息学的理论发展。(2)实证研究依照疾病-基因关联关系发现模式的原理和思路,从糖尿病并发症主题的文献摘要中发现疾病与基因的关联关系,并揭示关联关系的强度和深度。实证研究证明了关联关系发现模式的科学性、合理性、有效性,能够从生物医学领域的科技文献中进行知识发现。