论文部分内容阅读
蛋白质是生命活动的物质基础,对其功能的预测至关重要。目前主要有两种方法测定蛋白质功能:生物实验方法和基于数据的计算方法。生物实验法存在耗时长,成本高的问题,因此基于数据的方法是目前对蛋白质功能预测的研究热点。本课题使用基于数据的方法对蛋白质功能进行预测,研究内容主要包括以下三个方面:(1)构筑基于结构域和改进MIMLSVM的蛋白质功能预测模型。针对现有MIML算法预测精度不高的问题,设计一种基于改进MIMLSVM预测蛋白质功能模型。首先,采用改进的Hausdorff方法计算包之间的空间距离,并结合K-Medoids方法将MIML(多示例多标签)问题退化为多标签问题,以提高预测精度;然后,利用SVM算法将多标签问题转化为多个独立的二分类问题,结合蛋白质数据的特点,建立蛋白质功能预测模型,并利用粒子群算法优化模型参数;最后,通过对七种生物蛋白质功能预测的实验,证明所建模型的优越性。(2)设计基于AVC-SVM的芋螺毒素离子通道类型预测模型。针对现有方法对离子通道预测中存在的信息冗余问题,设计一种基于AVC(Analysis of Variance and Correlation)和SVM的芋螺毒素离子通道类型预测模型。首先用F值衡量特征对于结果的显著性影响水平,通过粗选的方式过滤F值较小的属性;然后引入Pearson Correlation Coefficient衡量属性间互相的冗余度,通过设置阈值过滤相关性较强的属性得到细选的结果;最后使用SVM预测芋螺毒素的离子通道类型。对比实验表明:AVC-SVM模型在交叉验证下得到总体预测精度91.98%和平均预测精度92.17%,使用氨基酸组合和二肽组合作为特征的个数为68,与其它模型相比,保证较高精度的情况下运行时间由8至11秒缩短为0.085s。(3)实现芋螺毒素离子通道类型的在线预测。为方便其他研究者进行芋螺毒素的相关研究,使用C#和matlab混合编程技术,在AVC-SVM模型的基础上开发芋螺毒素离子通道类型的在线预测系统。该系统输入是芋螺毒素蛋白质的氨基酸序列,输出是对应的离子通道类型。同时,该系统提供容错提示功能。当输入特殊字符、代表模糊不清的氨基酸残基的不合法字符、标点符号或者氨基酸序列长度小于3bp时,可以返回错误提示,方便用户及时改正输入。此外,该系统提供下载功能,供其他研究者下载相关论文和实验数据。