论文部分内容阅读
癌症亦称为恶性肿瘤,癌症的发生对人类健康产生了巨大的威胁。随着人类基因组计划的完成,寻找与癌症相关的致病基因成为理解癌症病发机理、癌症预防和诊治手段的基础,具有重大的社会和科学意义。因此,在生物医学领域中,人类致病基因的预测已成为研究热点。已有研究显示,生物网络中趋于邻近的基因易导致同种或相似疾病的发生。有效地利用多种生物网络间所隐含的生物信息,能够提高人类致病基因预测的准确性。与此同时,在鉴别与某种癌症相关致病基因问题中,由于已知基因较未知基因数目相差悬殊,使得致病基因的鉴别问题成为一个典型的不平衡分类问题,传统机器学习方法对于致病基因的鉴别效果并不理想。在此背景下,本论文以多种生物网络数据为基础,针对人类致病基因的鉴别问题进行了研究,取得了如下创新性成果:1.为了将多种生物网络信息进行有效地融合,本研究提出了一种基于逻辑回归的多源数据融合方法。给每个基因分配先验标签的过程中使用了蛋白质复合物数据信息,并通过对二值逻辑回归算法中特征向量的重新构造实现了多种数据源的有效融合,同时充分融入了基因与基因之间的连接信息。该方法提高了致病基因鉴别问题的预测精度,相关实验结果分析对比也进一步表明了该方法的有效性。2.针对数据的不平衡性,本研究提出了基于多步逻辑回归和随机重采样方法以鉴别人类致病基因。研究主要分为两大阶段。第一阶段是鉴别与癌症类相关的致病基因,通过将所有癌症相关基因融合在一起作为正样本,在一定程度上减少了正负样本的不平衡性。通过多步逻辑回归,在每一步中将负样本中结果最不好的部分基因剔除,以改善正负样本的平衡性,并不断优化结果。第二阶段是鉴别与某一具体癌症相关的致病基因,基于二值逻辑回归,加入了上采样和下采样的随机重采样方法,解决了由于当前癌症已知致病基因数量少而引起的正负样本不平衡问题,提高了预测的准确性。3.将本研究提出的方法与其它已有方法进行了对比实验,对五种癌症结果进行通路富集分析,并且对相关通路进行了生物意义上的解释。实验结果验证了本文提出的方法在致病基因鉴别问题上的精确性与有效性。综上,本研究针对人类致病基因鉴别问题中多源数据的融合和数据不平衡问题,提出了相应的方法,提高了致病基因鉴别的准确度。通过研究得到了人类多种癌症可能相关的致病基因,为癌症的预测、诊断和治疗提供了借鉴。