论文部分内容阅读
目前,癌症是威胁人类生命健康的一大杀手,因此研究癌症的致病机理成为当前的研究热点之一。如果能够根据肿瘤标志物的情况来判断癌症的产生情况,显然对预防和治疗癌症都是有益的。有研究发现,差异表达的基因和miRNA有作为肿瘤标志物的潜力。miRNA是一种类型小的非编码RNA,并且参与很多生物过程,例如在维持干细胞,组织发展及细胞代谢中发挥着重要的作用,miRNA参与靶向基因的转录来影响其表达情况。在人类基因组中大约有4%的基因是miRNA,miRNA的异常表达通常会导致靶向基因的异常表达,从而导致细胞功能改变,如细胞分化,增殖,甚至死亡。很多研究表明,miRNA参与癌症在人体内的生物过程,因此研究miRNA的表达行为对诊断与治疗癌症是非常有意义的。近年来高通量测序技术得到迅速发展,该项技术有高通量、简单、运算方便等优点。研究人员使用基因芯片技术得到多种癌症的基因和miRNA表达数据,然后对这些数据使用分析手段获取差异表达的基因和miRNA,最后根据需要做后继分析。但是使用基因芯片技术得到的表达数据,具有高维小样本的特点,即成千上万基因或者miRNA表达数据仅有几十个样本数据,这样给分析过程带来一定的困难。为了解决这一问题,一般在分析之前尝试给数据降维,特征选择方法是目前比较常见的数据降维手段。使用优秀的特征选择算法,即性能稳定且特征子集分类准确性高的算法,对后续分析过程有很大的帮助。本文主要关注过滤式特征选择算法,该类算法相对其他类型的特征选择算法具有简单、快速和稳定的特点。在本文中,我们对最大相关最小冗余(m RMR)特征选择方法进行改进。近年来,很多研究关注使用成对的样本数据,为了增强算法的稳定性,本文使用成对的样本数据和集成策略对算法进行改进,提出一个更加稳定的特征选择算法。在本文的实验分析部分,我们使用六个癌症数据集进行实验,与其他一些特征选择方法比较,我们提出的算法具有更高的准确率和更好的稳定性。为了研究癌症的致病机理,关注异常表达的miRNA和基因以及两者之间的靶向关系是十分重要的。在本文中,我们提出了一个改进的多步骤分析法来构建miRNA与靶向基因的关系网络,分析miRNA-靶向基因对之间的关系。首先,使用改进的特征选择算法获得差异表达的miRNA和基因。然后基于选定的miRNA和基因在肿瘤及其相应的正常组织中的表达水平,使用皮尔森系数计算miRNA与基因之间的相关性,从而获取具有负相关关系的miRNA-靶向基因对。最后,为了验证我们的方法,使用三个靶基因预测数据库筛选计算结果并进行分析。在分析部分,使用四类癌症芯片数据,对每类癌症计算结果经数据库筛选前和筛选后进行展示。通过对结果的展示和生物学分析,可以看到使用我们的方法可以得到一些在靶基因预测数据库中不曾出现的miRNA-靶向基因对。这些miRNA-靶向基因对可以提供给生物研究人员,为他们的研究工作缩小了范围并提高了研究效率。