基于信息抽取的疾病与基因关联关系研究

来源 :吉林大学 | 被引量 : 0次 | 上传用户:aonHdt6b
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
目的:从医学信息学的视角出发,旨在从生物医学文献数据中发现疾病与基因的关联关系。为从文献中发现疾病与基因的关联关系,建立基于信息抽取的疾病-基因关联关系发现模式。研究对关联关系的强度与深度进行定义与分析,从文献中发现疾病与基因的关联关系,实现基于文献数据的知识发现。应用PubMed中糖尿病并发症主题的文献数据进行实证研究,发现糖尿病并发症与基因的关联关系,论证揭示模式的科学性、在知识发现领域的合理性和可行性。通过对文献摘要数据进行文本挖掘,发现疾病关联基因及其规律,实现知识发现,为疾病的预防与治疗提供依据。方法:通过文献调研法系统详实地对医学文本挖掘、信息抽取等领域的国内外研究现状进行综述,并对研究相关的理论与方法进行述评。基于当前研究现状与理论方法基础,提出基于信息抽取的疾病-基因关联关系发现模式。关联关系发现模式可发现疾病与基因间的关联关系,并从关系的关联强度与关联深度进行关系的剖析与揭示。模式整合了本体理论和共词分析法、命名实体识别、关系抽取等技术的思想,从文献摘要中识别并抽取疾病与基因的关联关系。应用知识发现和文献计量学理论,定义并分析了疾病与基因关联关系的强度与深度:关联关系强度是由数据关联驱动的关系,模式应用聚类分析的方法分析疾病与基因关联关系强度;关联深度是由关系内涵驱动的关系,模式从语义关系和生物关系两方面揭示疾病与基因关联关系深度。以糖尿病并发症主题科技文献摘要进行模式实证。采用基于词典的实体识别技术,构建实体抽取规则,从文献数据中发现疾病实体与基因实体及二者间关联关系。从数据视角发现疾病与基因的关联强度,应用语义关系分析和生物信息学分析揭示疾病与基因关联关系深度,其中语义关系揭示了基因在疾病发生发展中的机制,生物信息学分析揭示了关联基因的生物进程。模式实证结果采用回溯分析的方法回溯至原摘要验证与讨论,发现疾病与基因的关联关系,实现生物医学领域基于文献框架下的知识发现。结果:(1)构建基于信息抽取的疾病-基因关联关系发现模式,模式能够从文献数据中发现疾病与基因的关联关系,定义并分析关联关系的强度与深度。(2)关联强度实证部分,模式从文献摘要数据中获得656个糖尿病肾病关联基因,基于关联基因的共现强度指数进行聚类分析,得到三类关联基因。其中高度关联基因可能是当前研究的理论依据,中度关联基因是当前研究的热点,低度关联基因是可能的知识发现,未来可能进一步发展成为研究热点。(3)关联深度实证部分,生物信息学的基因富集分析发现糖尿病并发症关联基因的蛋白作用通路主要为炎症反应通路和癌症通路;语义关系抽取可发现三类语义关系315个,其中作用关系结果218个,角色关系结果64个,调节关系结果33个。结论:(1)研究基于信息抽取提出疾病-基因关联关系发现模式,发现并定义了疾病与基因的关联关系。从数据关联的视角定义了关联关系的关联强度,定量地提出关联强度指数。从生物关联和语义关联的视角定义了关联关系的关联深度,定性地对语义关系分类。关联关系发现模式多角度、多层次揭示了生物医学领域的实体关联关系,促进医学信息学的理论发展。(2)实证研究依照疾病-基因关联关系发现模式的原理和思路,从糖尿病并发症主题的文献摘要中发现疾病与基因的关联关系,并揭示关联关系的强度和深度。实证研究证明了关联关系发现模式的科学性、合理性、有效性,能够从生物医学领域的科技文献中进行知识发现。
其他文献
随着移动终端设备的普及,移动设备操作界面小,操作繁琐等问题亟待解决,如何高效地与移动设备交互越来越重要。手势作为一种人类通用的交互方式,可以在日常生活中直接清晰地表达人们的意图,已经成为人机交互界的热点。其中基于声音侧信道的手势识别技术由于其不需要额外设备和普适性等特点倍受关注。现有的基于声音侧信道的手势识别技术,需要检测多普勒频移用以识别不同的手势,但对于手势的幅度和速度均有一定要求。实际生活中
针对目前其它选煤设备对粗粒级煤泥不能有效分选的问题,提出了用干扰床分选机(TBS)处理1.25~0.8mm粗煤泥,介绍了干扰床分选机的原理;利用干扰床分选机对粗煤泥进行了分选试验,
盘北选煤厂从现有的流程、设备出发,通过改造跳汰机的洗选工艺来适应市场对不同洗选产品的质量要求,达到了保证产品质量,提高回收率,简化工艺,降低消耗,提高经济效益的目的。
针对进口HM重介旋流器在使用中内衬局部磨损严重而影响生产的问题,对其进行了国产化;国产FX1300重介旋流器结构简单,操作方便,处理能力大,分选效果好,对不同原煤有较强的适应