论文部分内容阅读
基因芯片技术是研究基因表达谱数据的一种有效工具,通过分析基因表达谱数据中的数千个基因数据,在医学等领域得到了广泛的应用。基因表达谱数据急速增长,表现出规模庞大、内容复杂的特性,这不仅导致特征空间的维数不断增加而降低了学习算法的效率,也使得大量多余数据的出现干扰了实验的结果。基因芯片技术的发展对癌症的研究有很大的影响。微阵列基因表达谱数据已被广泛应用于癌症生物标识或关键基因的识别,有效促进了传统组织病理学的发展,并提高癌症诊断和分类的准确性,对发现新疗法的癌症病因的认识进一步加强。基因表达谱数据具有高维特性,传统的基因分类方式的分类精度很差。因此,特征构建和基因选取被应用于基因表达谱数据,以克服高维问题。特征选择已被应用于微阵列基因表达谱数据处理,它是选择信息基因的最小子集的过程,这些信息基因的最小子集是最能预测其基因组的分类模型,这使得分类器能够准确地对样本进行分类。特征选择算法的目的是使微阵列数据特征空间最小化,从而选择出最重要的属性,以提高分类的准确性。粗糙集理论及其应用迅速发展,已成为一种处理不确定数据并进行特征选择、规则提取和知识发现的有效工具。本文主要从优化特征选择的角度研究基因表达谱数据,基于邻域粗糙集的相关概念,从提高特征选择算法的分类精度和降低算法的耗时两个方面入手,使之能够有效的处理一些基因表达谱数据。本文的主要研究内容如下:(1)粗糙集的边界域中的信息是不确定的,这些区域的信息往往很重要,研究这些不确定的信息对属性约简有重要作用。针对邻域粗糙集中的边界域模糊的特点,研究了一种基于依赖度和距离函数的邻域粗糙集特征选择方法。首先,基于邻域粗糙集模型描述了邻域依赖度、属性必要性等概念;然后,在邻域决策系统中给出了上下近似集的均值定义,设计了邻域边界域对象相对于上下近似集均值的距离函数,提出了基于邻域粗糙集的特征选择方法,并将其应用于癌症基因数据的特征选择,构建了一种基于依赖度和距离函数的邻域粗糙集特征选择算法;最后,采用不同的分类器对算法进行测试。实验结果表明,该方法是有效可行的。与现有的特征选择方法相比,它具有更好的分类性能,能够有效地处理邻域粗糙集边界域中的不确定信息。(2)针对传统聚类算法中只注重数据间的距离关系,而忽视数据全局性分布结构的问题,提出了一种基于EK-medoids聚类和邻域距离的特征选择方法。首先,用稀疏重构的方法计算数据样本之间的有效距离,构建了基于有效距离的相似性矩阵;然后,将相似性矩阵应用到K-medoids聚类算法中,获取新的聚类中心,进而提出了EK-medoids聚类算法,可有效对原始数据集进行聚类;最后,根据划分结果所构成簇的邻域距离给出确定数据集中的属性重要度定义,应用启发式搜索方法设计了一种EK-medoids聚类和邻域距离的特征选择算法,有效降低了聚类算法的时间复杂度。实验结果表明,该算法不仅有效地提高了聚类结果的精度,而且也可选择出分类精度较高的特征子集。(3)针对蚁群聚类算法收敛速度慢、算法耗时长等特点,研究了一种基于蚁群聚类优化的邻域特征选择算法。首先,在传统的蚁群算法每次循环计算的各个样本到其对应的聚类中心的总的偏离误差的基础上,生成一组随机数来检验误差,找出偏离误差最小的最佳路径,并对原始数据集进行预聚类;然后根据每个聚类的邻域距离,进行特征选择;最后,在所选取的特征子集上重新聚类,验证已选取的特征子集的分类精度。实验结果表明,该算法能够选择出了分类精度较高的特征子集。