一种高效的蛋白质同源建模缺失值填充方法

来源 :华北电力大学(北京) 华北电力大学 | 被引量 : 1次 | 上传用户:A578964735
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
蛋白质分子通常由几百、几千个氨基酸组成,完全表达它的结构,需要6N维的空间,其中N是原子数。这是一个维数极其巨大的高维空间,很难利用它来处理问题,对某些问题甚至是不可行。但是由同一个祖先演化而来的同一家族中的不同蛋白质,由于遗传信息的保守性,会在进化过程中保留下来,在结构上的体现就是,这些蛋白质某些部分会有非常相似的三维结构,我们通常称之为保守区域。保守区域的结构可以利用PCA等方法来处理,根据研究问题需要的精度,降低空间的维数,从而达到简化研究问题的复杂性。   应用PCA方法来处理蛋白质问题的时候,首先是要对同一个家族的蛋白质分子进行多序列比对;然后按照离散程度,来判断保守区域;对保守区域的结构进行PCA计算,获取保守区域结构,非保守区域部分需要另外考虑。通常来说,保守区域可以利用遗传信息,在处理很多问题的时候,比非保守区域要容易,所以我们在进行PCA计算的时候,希望包含进来的保守区域尽可能的大。但是在非保守区域中还是有些包含少量空位的位置,尽管序列和结构的保守性不如保守区域的保守性强,但是仍然包含很多的遗传信息。如果我们能够把空位的地方填上合适的数值,就可以像保守区域一样利用PCA方法来处理。对这些空位数值的填充,就是所谓的缺失值问题。在处理缺失值问题的时候,很多软件在不影响样本集的情况下直接删除或者忽略缺失值、甚至是使用0值来进行填充。一般来说,忽略缺失值对于样本数量很庞大的样本集影响不大,但是对于生物学上的蛋白质分子就会带来很大的不足与缺陷,这样的处理没有充分利用生物数据集所蕴含的有价值的信息。所以,我们需要尽可能的利用数据之间的关系来填充上合理的数值。   本文提出一种高效的蛋白质同源建模缺失值填充方法,区别于传统的迭代方法,这种方法不需要迭代计算,只需要进行两次矩阵运算,是一种完全的线性方法,所以避免了迭代算法影响原始数据的可靠性的问题。同时这种方法不仅仅可以应用于蛋白质同源建模缺失值的填充问题,也可以应用于其它研究领域的缺失值问题,具有一定的广泛性意义。
其他文献
7月,市场焦点齐聚欧美两个重量级经济体的主权债务“生死劫”。欧债危机和美国国债上限僵局的共同发酵导致投资者避险情绪陡增(图1中VIX指数可以代表避险需求),资金离开美元
一维过渡金属原子链(Transition metal monoatom chain, TM MAC)由于具有独特的物理性质如量子尺寸效应、小尺寸效应、高自旋极化、量子隧穿效应和巨磁性等,因而在高密度磁性
学校体育教学需要一定数量和质量的体育器材设施,否则无法保证新课程标准的顺利实施,更无法完成新课程标准的教学目的。农村初中由于受体育设施条件差、经费不足及教师教育观念
在以往的阅读教学中,尽管我们教师与学生付出了很大的努力,但教学效果仍不尽人意。学生厌恶英语阅读在很大程度上源于:英语阅读动机的缺乏,英语阅读体验的缺乏,英语阅读语料价值的
氧化锌材料因其具有独特的物理和化学性质,在光电子器件、传感和催化等领域的应用前景非常广阔,成为目前的研究热点之一。ZnO具有宽禁带、高激子束缚能、优异光电性质等优点,是
现代教学技术的运用教学方法的改进,对于小学数学课堂而言,正确的运用多媒体技术,使之能够发挥应有的作用将会使学生受益,必须要克服当前在小学数学教学中存在的一系列问题,提高多
中国银监会8月底发布《网络借贷信息中介机构业务活动信息披露指引》,明确了网贷机构应当披露的基本信息、运营信息、项目信息、重大风险信息等,标志着网贷行业合规发展又迈
在本文中,我们考虑了在量子力学中的平均首达时间问题。平均首达时间问题最初来源于统计力学中的随机行走过程,考虑的是一个随机行走者从一个给定的初位置出发平均要用多长时间
信息技术是一门新兴学科,与其他学科相比,缺少现成的经验供我们借鉴,而且信息技术本身就是飞速发展的,每年教学内容都有很大的变化,特别是越来越多的学生家中有电脑,已掌握了书本上
射击项目对专业性、准确性、稳定性、平衡性要求很高。能否将青少年运动员培养成为一名优秀的射击运动员关键在于能够采用合理、有效的基础训练方法。本文结合实际情况,简述青