论文部分内容阅读
蛋白质分子通常由几百、几千个氨基酸组成,完全表达它的结构,需要6N维的空间,其中N是原子数。这是一个维数极其巨大的高维空间,很难利用它来处理问题,对某些问题甚至是不可行。但是由同一个祖先演化而来的同一家族中的不同蛋白质,由于遗传信息的保守性,会在进化过程中保留下来,在结构上的体现就是,这些蛋白质某些部分会有非常相似的三维结构,我们通常称之为保守区域。保守区域的结构可以利用PCA等方法来处理,根据研究问题需要的精度,降低空间的维数,从而达到简化研究问题的复杂性。
应用PCA方法来处理蛋白质问题的时候,首先是要对同一个家族的蛋白质分子进行多序列比对;然后按照离散程度,来判断保守区域;对保守区域的结构进行PCA计算,获取保守区域结构,非保守区域部分需要另外考虑。通常来说,保守区域可以利用遗传信息,在处理很多问题的时候,比非保守区域要容易,所以我们在进行PCA计算的时候,希望包含进来的保守区域尽可能的大。但是在非保守区域中还是有些包含少量空位的位置,尽管序列和结构的保守性不如保守区域的保守性强,但是仍然包含很多的遗传信息。如果我们能够把空位的地方填上合适的数值,就可以像保守区域一样利用PCA方法来处理。对这些空位数值的填充,就是所谓的缺失值问题。在处理缺失值问题的时候,很多软件在不影响样本集的情况下直接删除或者忽略缺失值、甚至是使用0值来进行填充。一般来说,忽略缺失值对于样本数量很庞大的样本集影响不大,但是对于生物学上的蛋白质分子就会带来很大的不足与缺陷,这样的处理没有充分利用生物数据集所蕴含的有价值的信息。所以,我们需要尽可能的利用数据之间的关系来填充上合理的数值。
本文提出一种高效的蛋白质同源建模缺失值填充方法,区别于传统的迭代方法,这种方法不需要迭代计算,只需要进行两次矩阵运算,是一种完全的线性方法,所以避免了迭代算法影响原始数据的可靠性的问题。同时这种方法不仅仅可以应用于蛋白质同源建模缺失值的填充问题,也可以应用于其它研究领域的缺失值问题,具有一定的广泛性意义。