论文部分内容阅读
作为生物大分子的新成员,长非编码RNA(lncRNA)在许多生物过程中发挥重要作用。随着lncRNA研究不断深入,lncRNA相关研究数据呈井喷之势。为了更好地利用这些信息,生物信息学数据库应运而生。现有数据库覆盖了lncRNA结构信息、表达信息以及相互作用信息,这些数据库在lncRNA相关研究中起到重要作用。此外,这些数据库还为利用机器学习方法进行lncRNA相关预测提供了数据集。 随着研究不断深入,人们发现lncRNA在细胞功能调控中发挥重要作用。但是目前还没有系统收集lncRNA-基因调控关系的数据库,使得获取lncRNA调控信息十分不便。为了解决该问题,本文收集整理了实验验证的lncRNA-基因调控关系数据。具体而言,首先深入分析lncRNA-基因调控关系数据的特点,制定lncRNA-基因调控关系数据规范。通过摘要初筛以及全文分析,人工收集整理得到完整的lncRNA和基因调控关系信息。本文系统地整理了lncRNA功能研究领域的实验研究成果,为利用生物信息学方法预测lncRNA-基因调控关系提供了先验数据。 为了存储这些lncRNA-基因调控关系信息,本文还建立了名为LncReg的生物信息学数据库(http://bioinformatics.ustc.edu.cn/lncreg/)。LncReg是专门设计用来存储调控关系信息的数据库,包含详细调控关系和调控机制等综合分类信息。与现有数据库相比,LncReg在数据结构方面更适合存储lncRNA-基因调控关系,在数据集方面包含更全面、详细的调控信息。 基于LncReg收录的调控关系数据,本文重建了lncRNA-基因调控网络,并对该网络进行拓扑结构分析、基于KEGG信号通路的分析和基于Gene Ontobgy的功能分析等工作。拓扑结构分析表明lncRNA-基因调控网络符合典型生物网络特征,功能分析表明lncRNA-基因调控关系集中分布在细胞周期、组织发育以及疾病发生等之中。 最后本文提出一种预测潜在lncRNA-基因调控关系的方法LRGP。该方法利用收集的lncRNA-基因调控关系数据集为基础,结合网络推断算法,通过资源配置过程预测潜在lncRNA-基因调控关系,在预测精度上较现有方法有了较大的提高。