论文部分内容阅读
生物信息学(Bioinformatics)是生物学、计算机科学与应用数学等学科相互交叉而形成的一门新兴学科。它是通过对生物学实验数据进行获取,加工,采用合适的计算模型,对得到的数据结果进行存储、检索和分析,从而揭示出这些数据所蕴含的生物学意义。对生物信息方面的研究,有助于加速医学发展的进步,为临床试验提供大量的参考数据,因此具有十分重要的理论价值和现实意义。人类基因组中仅有1%到2%是负责蛋白质编码的基因,其余不编码蛋白质的RNA称之为非编码RNA(non-coding RNA,nc RNA)。研究发现,长分子非编码RNA在人类的生理变化和一些疾病产生中扮演了重要的角色,例如基因组的印记、细胞分化变异、免疫应对、肿瘤发生等。因此,开发出一个基于这些数据集的计算模型去预测长分子非编码RNA与疾病之间关联关系是非常必要的。近年来越来越多的计算模型被成功的应用于预测与疾病相关联的编码蛋白质的基因或者微RNA中,能够有效地促进人们对复杂疾病基础层面的认识,更有助于人们研制出治愈它们的药物。针对长分子非编码RNA与疾病关联关系的预测研究,本论文对基于网络的随机游走算法,及传统的K近邻算法进行了分析和改进并应用于lnc RNA-disease关联预测,主要工作如下:1.提出了基于异构网络的Lnc RNA-Disease预测方法,基于获取的的长分子非编码RNA相似性矩阵、疾病相似性矩阵和长分子非编码RNA与疾病的关联关系矩阵,在改进相似性矩阵的基础上构造一个异构网络,并应用随机游走算法预测lnc RNA-disease关联。留一交叉法实验结果表明,AUC值为0.9544,相对于仅在lnc RNA功能相似性网络上随机游走的预测算法,具有更好的结果。2.提出了基于二次K近邻算法的Lnc RNA-Disease预测方法,在原有的K近邻算法基础上进行扩展,可以增加已知节点的冗余度,从而就间接增大了数据集中结点的数量。在此基础上,提出了加权的二次K近邻算法,并将之应用到Lnc RNA-disease关联预测中。留一交叉法实验结果表明,AUC值为0.8685,与传统K近邻算法相对比,具有更好的结果。3.设计并构建了基于B/S架构的lnc RNA-disease在线数据查询网站。为了支持网络医学的发展,为lnc RNA-disease关联发现提供帮助。基于B/S架构,采用.NET+SQL模式构建了一个在线数据查询网站。该网站主要包括相关数据信息的查询、下载和在线添加新数据三个主要功能模块。相关系统测试表明,系统具有较好的稳定性。