基于统计特征和模糊支持向量机的剪接位点识别

来源 :西南科技大学 | 被引量 : 0次 | 上传用户:zy15400444
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
选择性剪接是真核生物基因表达调控的重要方法,剪接位点的准确识别是基因识别的关键问题,本论文围绕选择性剪接位点的识别这一重要问题展开研究。   首先,建立了选择性剪接位点序列的正负样本数据集。并通过分析数据集中相邻选择性剪接位点之间的距离,发现相邻选择性剪接位点之间的距离大多小于200碱基对(Base pair,bp),5’选择性剪接位点之间的距离84%小于200bp,3’选择性剪接位点之间的距离71%小于200bp。这表明选择性剪接位点两侧200bp范围内的序列对选择性剪接事件的发生有重要的影响,选择性剪接的保守信息就在此范围之内。   其次,统计了剪接位点序列的核苷酸分布情况、双核苷酸出现频率、剪接位点信号强度、GC含量等特征,发现真实的剪接位点序列存在着较强的保守性,而虚假剪接位点序列则接近于随机序列。进一步计算序列的信息熵,发现这种保守性在供体位点-5~+10范Ⅲ内和受体位点-20~+5范围内表现的最为明显,这可为以后的剪接位点识别工作提供指导。   然后采用了经典支持向量机(CSVM)和模糊支持向量机(FSVM)作为剪接位点识别算法。FSVM在一定程度解决了CSVM对噪声样本敏感的问题,但是常用的模糊隶属度设计方法都赋予离类中心较远的样本较低的权重,同时也降低了支持向量的权重,因此本文提出了一种新的模糊隶属度设计方法,综合考虑样本到两类的距离及样本之间的关系,最终将噪声样本和支持向量显著的区分开来。   最后确定了在剪接位点识别问题中表现最好的多项式核函数作为非线性支持向量机的核函数,并通过Voss方法将剪接位点序列映射成叫条二进制序列。多项式核函数CSVM对人类供体和受体位点的识别精度分别为:82.86%和66.34%;对小鼠供体和受体位点的识别精度分别为:77.52%和76.46%。基于本文提出的模糊隶属度发计方法的FSVM识别粘度有了大幅度的提升:对人类供体和受体位点的识别精度分别为:93.75%和84.64%;对小鼠供体和受体位点的识别精度分别为:90.33%和78.13%。不仅如此,FSVM在对正负样本识别精度的平衡上也有了很大进步。  
其他文献
随着工业生产的飞速发展,大量有毒有害物质排放到环境中。多环芳烃是一类广泛存在于环境中的有机污染物,其中有一些具有致癌、致突变和致畸的作用,对人类和动物的健康有巨大
随着航空事业高速的发展,大量柔性结构如太阳能帆板被使用于各种飞行器中。但由于这些柔性结构本身具有扰度高,阻尼低的特性,在受到外力作用时就会产生持续的振动。在没有空
随着电力市场的逐步民营化和自由化,电力负荷需求的预测对于电网的规划、能量消耗及安全运行影响越来越重大,引起一些国家和地区的高度重视和广泛关注。最近几十年,众多专家学者就如何提高电力负荷预测精度提出了各种各样的方法。经典的基于数学统计方法的预测模型,由于很难表明影响负荷相关因素复杂的非线性关系,无法达到令人满意的预测精度。实现结构风险最小化(Structural risk minimization,
自20世纪70年代以来,各种优秀的控制算法相继问世,极大的丰富了控制理论的学科分支,并且越来越受到控制工程界的关注。这些控制算法包括Smith预估控制算法,内模算法,预测PI算
发动机电子控制单元(ECU),属于负责发动机控制功能的电子控制模块,它的应用主要是对发动机中的燃气系统和点火系统进行闭环方式的控制,以此来提高发动机的燃气经济性并且减少发
在汽车的行驶中,轮胎压力监测是保证车辆安全运行的一个极为重要因素之一,轮胎性能的好坏直接影响到汽车的性能和安全。保证正常的轮胎气压值,能够提高汽车行驶的安全性,改善操纵
低压电力线是网络结构复杂的时变系统,其信道表现出阻抗变化大、信道频率特性不稳定、信号所受干扰强和时变性大等特点。低压电力线网络结构的复杂性和时变性是影响电力线通
在工业生产领域,直流调速器由于具有良好的起制动性能、宜于在广泛范围内平滑调速,所以在需要高性能可控电力拖动系统的领域中有着广泛的应用。本文针对冷轧管机主电机调速的
在工业气相聚乙烯生产中,熔融指数和密度是两个重要的质量指标。在聚乙烯实际生产中,根据生产牌号的需要,精确控制质量指标对提高企业经济效益具有重要意义。然而由于缺乏精
铝土矿磨矿分级过程中,原始测量数据由于存在测量误差和不完整性而直接影响了生产工况的正确判断,进而导致优化控制偏差和操作决策失误。因此,针对铝土矿磨矿分级过程数据的