论文部分内容阅读
自ENCODE计划以来,人类对于DNA碱基代码功能和生物作用信息的探索从未间断。研究基因编码过程的核心是DNA蛋白结合位点分析,而理解 DNA蛋白与结合位点之间相互作用是分析基因表达调控的关键。DNase-Seq技术能够在全基因组范围内检测DNA蛋白质结合位点。与已相对成熟的ChIP-Seq技术相比,有能力一次性检测基因组范围内全部DNA蛋白结合位点,且检测精度达到单碱基。基于此,本文研究并提出了一种考虑DNase偏差信号的DNA蛋白结合位点分析方法。该方法运用支持向量机实现DNA蛋白结合位点的预测与识别。 在研究中,首先提取同一样本的ChIP-Seq和DNase-Seq实验数据,利用ChIP-Seq数据测得的准确DNA蛋白结合位点,获取DNase-Seq对应信息并构建数据集。在DNase-Seq数据预处理中,发现剪切信号具有碱基组合倾向性,导致数据存在偏差。随后,设计一种公式推导算法去除该偏差。利用去除偏差后的DNase-Seq数据,以结合位点区域窗口数据为正样本,远离结合位点窗口数据为负样本,训练支持向量机识别模型。最后,用训练好的模型预测DNA蛋白的结合位点。 在模型效果验证中,去除偏差之后数据训练的模型比未处理数据训练的模型获得更好的识别效果。