论文部分内容阅读
选择性剪接是真核生物基因表达调控的重要方法,剪接位点的准确识别是基因识别的关键问题,本论文围绕选择性剪接位点的识别这一重要问题展开研究。
首先,建立了选择性剪接位点序列的正负样本数据集。并通过分析数据集中相邻选择性剪接位点之间的距离,发现相邻选择性剪接位点之间的距离大多小于200碱基对(Base pair,bp),5’选择性剪接位点之间的距离84%小于200bp,3’选择性剪接位点之间的距离71%小于200bp。这表明选择性剪接位点两侧200bp范围内的序列对选择性剪接事件的发生有重要的影响,选择性剪接的保守信息就在此范围之内。
其次,统计了剪接位点序列的核苷酸分布情况、双核苷酸出现频率、剪接位点信号强度、GC含量等特征,发现真实的剪接位点序列存在着较强的保守性,而虚假剪接位点序列则接近于随机序列。进一步计算序列的信息熵,发现这种保守性在供体位点-5~+10范Ⅲ内和受体位点-20~+5范围内表现的最为明显,这可为以后的剪接位点识别工作提供指导。
然后采用了经典支持向量机(CSVM)和模糊支持向量机(FSVM)作为剪接位点识别算法。FSVM在一定程度解决了CSVM对噪声样本敏感的问题,但是常用的模糊隶属度设计方法都赋予离类中心较远的样本较低的权重,同时也降低了支持向量的权重,因此本文提出了一种新的模糊隶属度设计方法,综合考虑样本到两类的距离及样本之间的关系,最终将噪声样本和支持向量显著的区分开来。
最后确定了在剪接位点识别问题中表现最好的多项式核函数作为非线性支持向量机的核函数,并通过Voss方法将剪接位点序列映射成叫条二进制序列。多项式核函数CSVM对人类供体和受体位点的识别精度分别为:82.86%和66.34%;对小鼠供体和受体位点的识别精度分别为:77.52%和76.46%。基于本文提出的模糊隶属度发计方法的FSVM识别粘度有了大幅度的提升:对人类供体和受体位点的识别精度分别为:93.75%和84.64%;对小鼠供体和受体位点的识别精度分别为:90.33%和78.13%。不仅如此,FSVM在对正负样本识别精度的平衡上也有了很大进步。