论文部分内容阅读
基因功能的研究,主要通过各种组学、算法和生物实验技术,将基因序列信息和基因功能联系起来。基因序列和功能研究不仅揭示了自然界中生物系统不同水平的生命活动规律,还与人类疾病防治、新药开发、抗性基因息息相关,推动着遗传学、发育生物学、医学、农学等学科发展。在信息时代,算法作为解决问题的重要工具之一,通过输入计算机识别的预处理信息,在短时间内快速获取所需要的输出,在各个领域中得到了广泛的应用。本文主要通过数学建模进行基因的序列和功能研究。本文第一部分将深度学习应用到人HIV-1病毒的染色质区整合位点预测上,取整合位点及其周围构成序列,k_mer切分后,进行词向量训练,然后构建深度学习模型,加入注意力机制,对影响越大的特征给予越大的权重,提高模型性能(AUROC提高了大约0.01)。我们通过对训练集随机抽样构成不同的弱分类器,最后采用模型平均的策略集成学习。在深度学习中碱基序列编码方式上,我们比较了传统的one_hot和基于词向量模型训练的word2vec、doc2vec、GloVe,发现GloVe具有最高的模型性能,AUROC为0.881、AUPRC为0.879。和其他模型对比,AUROC优于Min等人的LSTM-CNN模型0.645;我们平衡了正负样本,所以在AUPRC上也优于Hailin等人的0.511,AUROC也略高于Hailin等人的0.879。我们的模型具有更高的性能以及潜力,通过参数优化,也阐释了模型的有效性。本文第二部分基于推荐算法,通过多个lncRNA、蛋白质的相似性网络来预测lncRNA和蛋白质的相互作用关系。我们各取了3000条lncRNA、蛋白质,计算了它们的共表达相似性、基因序列相似性,构建成网络,通过重启随机游走算法来学习lncRNA、蛋白质的特征,最后通过双线性函数映射原理学习映射空间,对未发现的lncRNA-蛋白质的相互作用关系进行评分预测。经过十折交叉验证,取平均值,模型的准确率为0.971,AUROC达到了0.986,优于最新Xiao等人PLPIHS模型的0.968。模型可以对后续海量的基因相互作用提供思路,发现新的lncRNA-蛋白质相互作用关系,研究lncRNA的功能。