论文部分内容阅读
分形理论作为现代非线性科学研究中十分活跃的一个数学分支,在物理、地质、材料科学以及工程技术中都有着广泛的应用,分形的思想和方法在模式识别、自然图像的模拟、信息讯号的处理以及艺术的制作等领域都曾取得极大的成功。用分形研究蛋白质是一种比较新颖的方法。近年来,由于基因银行(GeneBank)和布鲁海文蛋白质数据库(PDB)发展得很快,为了分析这些海量数据,生物信息学应用而生,并得到了迅速发展。对于这些数据的处理,人们曾经尝试过用求分形维数的方法研究蛋白质,也仅仅用于分析蛋白质折叠的总体复杂趋势。
商空间粒度理论作为一种问题求解的方法,有坚实的理论基础,多侧面、多角度、多层次的问题求解模式,是描述现象和解决问题的强有力工具。随着近代概率论的发展,融概率论、经典分析、几何与分形学于一体的随机分形得到了迅速发展。随机商分形理论是将商空间与随机分形相结合,考虑它们之间联系,并用商空间粒度分析思想来研究分形现象的一种方法。本文深入研究了随机迭代函数系统的性质,结合商空间粒度理论,建立了随机商分形模型。在此基础上讨论了这个模型的性质及应用,主要工作包括:
1、通过给出随机迭代函数系统、递归迭代函数系统、向量递归迭代函数系统与商空间理论之间的联系,建立了随机商分形模型。
对于一般迭代函数系统,提出了在分形映射的定义下,商空间具有唯一的吸引子。指出在商分形模型中,商空间上的轨道是具有周期性的,这说明从商空间的角度研究迭代函数系统的动力性质,可能会出现一些易得的结果。
对于随机迭代函数系统,仿照一般迭代函数系统的作法,证明了它与一簇分层递阶结构的商空间链相对应。并且利用原空间的测度性质,提出了在商空间中也具有自相似测度,且自相似测度的支撑集就是商空间的唯一的吸引子。同时利用原空间的遍历性可以证明商空间的遍历性。
对于递归迭代函数系统和向量递归迭代函数系统,首先利用转移概率所对应的分形映射定义分划,形成有序商集链。再利用在商集上构造的距离函数,证明该度量空间也是完备紧度量空间,从而形成分层递阶结构的商空间链。
将这三类既考虑随机性又考虑分层递阶关系的模型,统称为随机商分形模型。随机商分形模型既体现了商空间的粒度思想,又具有分形几何的自相似特征。由于引入测度分析,故其在复杂现象的问题求解中,可考虑多粒度、多层次、不同精度下的商空间逼近的要求,得到问题的近似解以及相关的动力性质。并且根据随机商分形模型的粒度思想,可以大大降低问题求解的计算复杂性。这也是我们建立模型的初衷所在。
2、将随机商分形应用到蛋白质序列分析中,指出分形维数就是不同粒度下的分形体A共同具有的特征;求分形维数的过程,其实就是对分形体作划分的过程;多重分形就是在不同粒度以及同一粒度不同层次的商空间之间共有的特征。说明这些分形方法可以用于蛋白质序列的特征表示。
本文设计了以下几类实验:实验一、提出运用R/S分析法,计算了蛋白质的Hurst指数,验证了神经网络、马尔科夫链、贝叶斯统计等方法用于蛋白质分析的有效性。实验二、设计用20个压缩映射构成的随机迭代函数系统的自相似测度来模拟一个蛋白质序列的真实测度,指出压缩映射的对应概率值中的最大值P<,4>能很好的表示一个蛋白质序列。实验三、比较了不同间隔距离下的蛋白质序列,指出j=4时的距离序列是适宜多重分形计算的。实验四、设计了一个指标函数S,指出在相近分维下,多重分形可以反映蛋白质折叠局部的复杂程度。实验五、指出针对氨基酸的某些物理化学指标所形成的蛋白质特征序列,进行多重分形分析时,相对概率集能更好地反映多重分形性质。实验六、给出了多重分形分析中加权因子q的取值范围。
3、将六种物理化学指标下的多重分形参量、Hurst指数以及P<,4>值用于蛋白质结构类预测。利用概率神经网络、支持向量机以及覆盖算法以及不同的检验方式进行结构类预测。结果发现,对于同源性较高的数据集,与别人的结果相比差别不大;而对于同源性低的数据集,我们的方法明显要优于别人的方法。