论文部分内容阅读
近年来,高通量技术的发展和研究能力的增长带来了大规模的生物数据。生物信息学的主要课题之一是从海量数据中挖掘导致疾病的分子机制。本文基于PubMed文献摘要和由微阵列数据生成的基因共表达网络来挖掘疾病与基因的关联性,并应用于癌症和艾滋病这两种复杂疾病。随着生物医学相关文献的爆炸性增长,从文献中寻找需要的信息变得越来越困难。基于关键词的传统搜索引擎难以满足较复杂的搜索需求。为了解决这一问题,本文提出了语义搜索的广义匹配原则:蕴含检索查询输入语义的目标文本应出现在搜索结果中,并开发了基于广义匹配原则的语义搜索引擎Sensehit。Sensehit整合了MeSH、Entrez 基因、UniProt、UnitProt Keywords、基因本体、HGNC、miRBase、HomoloGene等数据库中的生物医学背景知识,基于自然语言处理技术提取PubMed文献摘要中的语义,可用于搜索基因调控模式、蛋白质相互作用、蛋白质修饰、因果关系等生物医学相关信息,为疾病分子机制的研究提供方便。近年来,许多研究表明microRNA在癌症中扮演着重要的角色。为了从PubMed文献摘要中寻找和评估microRNA家族与癌症的关联性,本文基于正则表达式识别文本中的microRNA,基于MeSH术语标注获得文献涉及的癌症类型,基于Fisher精确检验评估microRNA家族和癌症类型的关联性,并建立了记录这些关联信息的数据库miCancema,可通过Web界面供研究者免费查阅。miCancerna覆盖的文献数是同类数据库miR2Disease的两倍以上,并达到90%以上的精确度。同时,本文进一步将其中显著的microRNA与癌症关联信息构建成关联网络,对该网络的分析表明一些microRNA家族与特定的癌症类型有关,有可能作为诊断和治疗的靶标,;另一些microRNA家族涉及多种癌症,可能在肿瘤发生中起到关键作用。导致艾滋病的HIV起源于在非洲一些灵长类动物中传播的SIV。SIV感染对天然宿主乌白眉猴无致病性,却会导致非天然宿主恒河猴发展为艾滋病。通过对比这两种情况下的基因表达谱,可以探究HIV/SIV感染导致艾滋病的分子机制。本文基于乌白眉猴和恒河猴在感染相同SIV毒株后不同时间点的微阵列基因表达数据,采用皮尔逊相关系数方法构建了 14个基因共表达网络,对其分析发现,在SIV感染期间,乌白眉猴和恒河猴基因共表达网络中基因的正、负连接数分布有显著差异。同时,本文对枢纽基因的信号通路进行了富集分析,得到4个在乌白眉猴的枢纽基因中显著富集的信号通路,8个在恒河猴的枢纽基因中富集的信号通路,以及3个在两者的枢纽基因中都富集的信号通路。进一步分析基因共表达网络中的枢纽基因,可能有助于理解SIV和HIV感染的发病机制,进而获得预防和治疗艾滋病的新线索。