论文部分内容阅读
离子通道是位于所有细胞脂质膜中的离子渗透性蛋白质孔,不同的离子通道在不同的生物过程中具有独特的功能。在这些离子通道之中,有很大一部分与疾病的发生及治疗都有关系,并且已知离子通道是超过700种药物的靶标。离子通道的数量不断增加,随着高通量质谱技术的迅速发展,蛋白质组学数据也在迅速积累。离子通道在细胞传导中起着重要的作用,它与许多疾病息息相关,在肿瘤和癌症的研究中起着重要的作用,是临床与科研的热点领域。并且,已经有研究表明中药对于治疗“通道病”具有良好的效果,所以对离子通道的快速准确的预测分类需要进一步的研究。本文的重点是首先利用生物信息学中的文本挖掘技术找到中药青蒿与肿瘤的八个关键靶点蛋白,进一步的研究发现这些关键靶点蛋白通过作用于细胞内离子浓度从而产生抗肿瘤作用,因此进一步对离子通道进行预测分类。然后基于蛋白质的物理化学性质和其他性质及特征,利用随机森林模型和支持向量机算法构建离子通道蛋白的分类器,用于确定蛋白质序列是否是离子通道蛋白质,并对离子通道蛋白质分类为家族及子家族。一旦确定了该蛋白质序列为离子通道,就可以进一步的对其进行分类研究。在本文中,采用三个评估指标:灵敏度(Sn)、总体准确度(OA)和平均准确度(AA)三个评价指标,用十倍交叉验证对模型进行评价。使用SVMProt、k-skip-n-gram和iFeature对处理过的离子通道数据集提取特征向量,再使用MRMD对特征向量进行降维处理,再使用随机森林和支持向量机对离子通道进行预测分类。实验结果显示,SVMProt和k-skip-n-gram所提取的特征向量更具有意义,并且MRMD在特征筛选这里表现十分好,有效的提高了离子通道预测分类的准确率。随机森林和支持向量机在离子通道预测分类问题中总体表现最佳。综上,基于机器学习方法有效提高了对离子通道的预测分类精度,能够快速准确的对离子通道进行预测分类。尤其是对比其他分类器,随机森林和支持向量机在离子通道的预测分类中的表现十分好。通过实验找到了最合适的特征向量集和方法对离子通道进行预测分类。