论文部分内容阅读
DNA微阵列(基因芯片)技术的出现,使人们能够获得高通量的基因表达数据,这将成为今后重要的生物医学研究工具。但微阵列数据具有小样本、高维度的特点,这给数据分析带来了困难,从中挑选主基因即进行特征选取是十分重要和有意义的。
在数据挖掘中,孤立点检测有着重要意义,可以用来发现数据集中小部分对象,以提高数据质量或发掘含有重要信息的数据单元,对于微阵列数据进行孤立点检测是十分有必要的。
在特征选取分类方面,本文使用遗传算法挑选主基因,其中用k最邻近方法作为模式识别方法,使用支持向量机构建一个分类器,运用不同核函数进行预测分类性能测试。通过实验,在经典的白血病微阵列数据集上,对于34个样本的测试集,达到了100﹪的分类准确率,表明本系统对于该基因表达数据具有很好的分类识别能力。
在孤立点检测方面,本文提出一种新的基于KNN图的孤立点检测方法——“两阶段法”。通过实验,该方法在模拟高维数据、真实低维数据(NBA数据)和真实高维数据(微阵列结肠数据)中表现良好,对于结肠基因表达数据检测得到的6个孤立点具有一定的代表性,表明本方法能够有效地检测孤立点,并且适用于高维微阵列数据分析。