论文部分内容阅读
基因芯片实验产生的表达谱数据中存在大量不合格的检测点,对异常值的不同处理,对于有监督疾病分类结果的影响很大。针对此问题,在Oligo芯片数据中,在表达水平层面,通常对检测值做最大值和最小值的预处理后,进行后续分析。本研究选取了四套Oligo芯片数据集,采用不同限定芯片数据中最大值和最小值的方法,考察支持向量机、K近邻、决策树三种分类器对分类疾病样本效能的影响程度。结果显示:Dudoit等限定最大值和最小值分别为16000和100是一种合理的策略,可以达到很好的分类效果。同时发现对于小于100的检测值较多的