论文部分内容阅读
背景当前高通量分析方法(例如,基因芯片、蛋白质组学和RNA测序等)已成为生物医学研究的常规手段。通过高通量方法筛选出的一组标签基因(或其产物),人们需要解析生物学含义、功能、参与的调控通路和分子网络,进一步识别网络中新的疾病基因和网络的关键节点(或者调控通路)等。随着生物信息学的兴起,文献挖掘已逐步成为生物医学研究的常规辅助手段,同时也成为大规模获取原始数据的重要途经之一;为助推疾病的诊断、预防和治疗研究起到了重要作用。文献挖掘在很多重要的生物信息研究领域(例如,获取蛋白质相互作用、基因功能注释和生物通路等)发挥着重要作用。目前许多基因功能、通路和分子相互作用等数据主要由人工从文献中提取并建成数据库,如GO数据库注释基因的功能、KEGG数据库注释代谢通路、HPRD数据库注释蛋白-蛋白相互作用等。但是人工注释由于人力、物力有限,只能注释一小部分的基因功能、通路和分子相互作用而且注释的形式是固化的不能随意变更。以GO数据库为例,大量与基因功能密切相关的注释仍然没有被GO收录,例如在胚胎干细胞中特异表达的基因和与特定病毒相关的基因等。因此,本研究开发网络版文献挖掘软件GenCLiP2.0,注释基因的功能和分子相互作用。软件的主要特色是:1)通过机器自动挖掘自由词并允许用户以人工编辑自由词的方式注释基因功能;2)从Pubmed摘要中识别并整合最全面的分子相互作用,构建分子相互作用网络及与任意自由词相关的子网络。■材料与方法1、文献挖掘人基因功能和分子网络。(1)数据库下载:将PubMed文献数据库、Entrez gene基因名称数据库和HUGO基因名称数据库下载到本地并定期更新。(2)基因相关文献识别:整合Entrez gene基因名称数据库和HUGO基因名称数据库,建立人基因名称数据库;根据人基因名称(包括缩写、别名、全称和产物名称等),制定基因名称的识别规则,识别PubMed中的基因相关文献,建成数据库。我们采用基于词典和基于规则的混合方法识别基因相关文献。首先,提取人基因名称(包括缩写、别名、全称和产物名称等)和Entrez gene的基因简介。对基因名称作相应的扩展、删减和修正,以提高基因名称识别查全率。同时,根据基因全称和基因简介制定辅助检索词,提高基因名称识别准确率。然后,在Biocreative Ⅱ GN训练集上总结归纳复杂的基因名称识别规则,进一步提高基因名称识别查全率和准确率。(3)基因功能注释识别:识别至少在两个基因的相关文献中高频率出现的非公共词汇的单词和词组为基因的功能注释(即关键词),建成数据库。我们通过两种方法识别基因的关键词。一、识别基因相关文献中高频率出现的非公共词汇为基因的候选关键词。二、识别基因相关文献中高频率出现的词组(包括GO数据库的生物学过程和分子功能注释,以及文献中出现简写形式的词组)为基因的候选关键词。进一步筛选至少两个基因共有的候选关键词作为基因的关键词。(4)分子相互作用识别:从基因相关文献中提取分子相互作用对(包括蛋白-蛋白相互作用和蛋白-基因相互作用),建成数据库。我们收集广泛使用的描述分子相互作用的调控词汇。在五个蛋白质-蛋白质相互作用(PPI)文献测试集(corpus)上总结归纳各个调控词的用法,从而制定识别规则。将基因相关文献分割为句子,根据制定的规则识别句子中相互作用的基因/蛋白对。(5)整合已有的分子相互作用数据库。我们收集四个已有的基于人工文献注释的分子相互作用数据库(HPRD、 BioGRID、CORUM、IntAct),提取其中人的分子相互作用对。如果该分子对在同一篇摘要的同一句子出现,则将其整合至上述建立的分子相互作用数据库。(6)词相关基因识别:根据用户提交的单词(组合),从基因相关文献中,识别包含该单词(组合)并且与基因名称出现在同一句子的文献,由此报告识别到的单词(组合)相关基因。(7)基因功能检索和聚类:根据用户提交的单个基因或者基因列表,从基因功能注释数据库中,识别单个基因的功能注释或者基因列表富集的功能注释并进行模糊聚类。允许用户人工添加或者删除基因功能注释,使得聚类结果更加与用户的研究目的密切相关。(8)分子网络构建:根据用户提交的单个基因或者基因列表,从分子相互作用对数据库中,识别单个基因所在的分子网络或基因列表所构成的分子网络。进一步地,根据用户提交的单词(组合),从分子网络中,识别基因对所在的文献包含该单词(组合)并与其出现在同一句子的基因对,由此构建特定关键词相关的分子网络。2、数据库挖掘人基因功能与通路。(1)下载人的GO数据库和通路数据库(包括代谢通路)到本地。(2)根据用户提交的单个基因(或基因列表),检索(或富集分析)其GO注释和调控通路。(3)对所提交基因列表的功能富集分析结果进行模糊聚类和显示。3、GenCLiP2.0网络平台的开发。在浪潮高性能计算集群服务器上,使用LAMP组合(Linux+Apache+MySQL+PHP/Perl),即整个系统工作在Linux平台,以Apache作为Web服务器,使用MySQL作为数据库系统,并使用PHP/Perl脚本语言结合HTML语言和JavaScript进行开发。最大限度地设计一个稳定且易扩展的网络系统,以及一个简单易操作的网页界面。4、GenCLiP2.0网络平台的测试和应用。(1)我们分别用Biocreative Ⅱ GN测试集和iHOP测试集检验基因名称识别模块的查全率和准确率,并与参加Biocreative Ⅱ竞赛的同类软件以及iHOP软件进行比较。(2)我们随机提取200个句子(包含442对分子相互作用),进行人工阅读验证,确定分子相互作用识别准确率。(3)我们将文献挖掘识别到的所有分子相互作用对与已有的四个PPI数据库进行比较,确定新发现的分子相互作用对数量。(4)我们在词相关基因模块中输入cancer "stem cell",搜索肿瘤干细胞相关基因,并人工阅读以确定准确率。(5)我们根据Sengupta等提供的695个鼻咽癌与正常鼻咽组织的差异表达基因,其中上调和下调的基因个数分别为326和369,分别输入GenCLiP2.0网络平台进行基因功能聚类分析和分子网络构建。■结果1.基因名称识别模块在Biocreative Ⅱ GN测试集上取得了查全率83.8%,准确率81.8%,F值0.828的结果,优于当时竞赛成绩最好的系统。iHOP测试集的结果为F=0.861,略优于iHOP的测试结果。2.在截止2010年的PubMed全集共1956万篇文献摘要中,识别到18305个人基因在314万篇摘要中出现594万次。平均每个基因的相关文献数为326篇。3.总共识别到17497个关键词。在18232个人基因中,平均每个基因的关键词有24个而平均每个关键词的相关基因有25个。同时计算了关键词在每个基因相关文献中的词频,这些关键词和词频最终用于文献功能注释和聚类分析。4.我们制定了53条分子相互作用对识别规则。在训练集上有接近九成的准确率。分子相互作用对识别模块最终确定了60609个基因对,与目前流行的4个PPI数据库的交集不足四分之一。整合这4个PPI数据库之后,分子相互作用对增加到79033对。5.网络平台构建工作完成,网址为:http://ci.smu.edu.cn。GenCLiP2.0的主要功能模块包括词相关基因检索模块,基因信息模块,基因功能注释聚类模块,分子网络文献挖掘模块,GO分析模块和通路分析模块,另外还有用户注册模块。6.我们用字符串cancer "stem cell",在词相关基因检索模块中检索到333个候选肿瘤干细胞相关基因。基因按出现cancer "stem cell"的文献数目排序。人工阅读发现大约50%的基因是正确的。7.695个鼻咽癌差异表达基因用GenCLiP2.0的分析结果与Sengupta等用GO注释的分析结果一致。并且GenCLiP2.0发现鼻咽癌差异表达基因与上皮组织分化、EBV反应、胚胎干细胞、间充质干细胞等密切相关。这些相关以自由词的形式出现,而不是以GO注释的标准形式出现,因此用GO注释无法发现。进一步地,GenCLiP2.0构建了鼻咽癌差异表达基因参与的与特定功能相关的基因网络并识别网络的关键节点。结论1. GenCLiP2.0从文献中挖掘人基因的功能注释和分子相互作用。其优点在于:1)充分发挥自由词的优势,不受GO等标准数据库的形式和范围限制;2)允许用户发挥自己的专业知识通过添加删除注释词汇参与基因功能注释;3)实现对PubMed的全覆盖,其注释的数量和范围比GO和KEGG等人工注释数据库更多、更全面。因此,GenCLiP2.0在阐明疾病的分子机制,构建疾病的分子网络,发现诊治的靶点等方面具有独特的优势。但是,其缺点是注释的假阳性率较高,不如GO和KEGG等人工注释数据库可靠。2. GenCLiP2.0的基因名称识别模块具有较高的查全率和准确率,与国际上先进的文献挖掘软件的水平相当,识别出来的基因相关文献比较可靠。分子相互作用识别模块具有较高的准确率,达到89%;但是查全率很低,不足30%。这两个模块仍然有较大的提升空间,可继续研究或者扩展到更多的物种。3. GenCLiP2.0的分子相互作用数据库提供了6万多个基因对,并且大部分是其它数据库尚未注释的。通过整合已有的四个PPI数据库后,基因对达到7万多对,是迄今为止基于摘要注释最全面的数据库。4. GenCLiP2.0的分析速度快、分析周期短,网页操作简单,用户容易上手。