论文部分内容阅读
神经肽泛指作用于神经元之间能够通过某种特定方式影响大脑活性的神经元信号分子。不同的神经肽涉及到不同的脑功能,包括镇痛、食物摄取、代谢、生殖、社会行为、学习和记忆,扮演着神经肽激素、神经调质、神经递质和细胞因子等多种角色。所有神经肽的最大共同特点是都来自于一条较大的神经肽前体蛋白。通常,一条神经肽前体蛋白包含一个信号肽序列、一个或者多个神经肽序列和一些其他的序列。神经肽相关的研究一直以来都是生物信息学的一个热点领域,但是现有的神经肽数据库对于数据的创新和准确性没有权威的评价,并且对于数据库的更新不及时导致数据不完善,而且存在数据过多、重复,分类较粗等不足,神经肽及其相关信息的数据库还远远不足以支撑起后续的研究。对于神经肽的基础研究更是需要大量具有一定准确度的预测工具提供有力的支撑。在本论文中,我们进行了以下两个研究:第一,在已有神经肽数据库研究的基础上构建一个数据更加丰富信息更加完善的神经肽数据库NeuropepDB。通过扩展已有数据的数据信息和从现已发表的相关文献中提取神经肽相关信息,Neuropep DB一共收录了来自442个物种的2545条不重复的神经肽前体蛋白信息,涵盖了来自66个神经肽家族的6275条神经肽。其中4934条神经肽是2545条神经肽前体通过复杂多变的转录后翻译形成,剩余的1341条神经肽来源于已发表的342篇文献且这部分数据还没有被SWISS-PROT数据库收录。第二,开发一个基于支持向量的神经肽前体预测工具NeuroPP(Neuropeptide Precursor Predictor)。NeuroPP整合了两个预测模型,一个是以蛋白质二肽组分作为特征的预测模型,另一个是以蛋白质三肽组分作为特征的预测模型。特征优化使用的方法是方差分析,分别获取最优的特征子集构建预测模型。独立检验数据集和五折交叉来评估模型,NeuroPP取得了82.52%的准确率和0.90的ROC,这表明NeuroPP具有很好的神经肽前体识别能力,可以作为现有工具的一个很好补充。为了方便交流和查询数据,Neuropep DB可在i.uestc.edu.cn/neuropeptide处自由访问,同时NeuroPP也开发成一个在线工具整合到NeuropepDB数据库中,可以在i.uestc.edu.cn/neuropeptide/cgi-bin/NeuroPP.pl处免费使用。