论文部分内容阅读
随着计算机技术的飞速发展,很多领域对分类方法提出了新的要求。如在生物信息学方面,人们通过DNA微阵列芯片实验可以得到基因表达谱数据,由于其数据高维的特点,如何从基因表达谱数据中选取包含样本分类信息的特征基因,建立合适分类器,是当前生物信息学研究的重要领域;在图象颜色迁移方面,如何进行多值多类标分类并进行多源图像颜色迁移是新的研究课题;在无线传感器领域中,针对事件检测和传感器的特点,如何建立分布式分类检测算法,对分类器提出了新要求。针对这些问题,本文重点研究了若干分类算法,主要工作和成果表现在以下方面:1.针对基因表达谱的特征基因选取问题进行了研究,提出了综合性分类信息指标—GB指标,将Gini指数与类加权Bhattacharyya距离相结合进行无关基因及噪声数据的剔除;采用欧氏距离丢弃高相关性的冗余基因;运用搜索算法得到最终的特征子集。针对两类急性白血病数据集最终提取了2组包含4个特征基因的子集;针对四类小圆蓝细胞数据集最终提取了1组包含7个特征基因的子集。使用支持向量机和神经网络作为分类器对这些特征基因子集进行分类测试,留一交叉检验和独立测试正确识别率都达到100%,本文提取的特征基因子集更精简,优于目前已发表的同类结果。2.将分类与关联规则挖掘相结合建立基于闭合模式的分类器。基因的表达值代表的是基因的三种表达状态:上升、下降和不变。由于基于关联规则的经典算法CBA等是挖掘所有频繁项目集,对高维基因表达谱进行频繁项集挖掘时,有相当多的模式是冗余的或价值不大的,采用基于闭合模式的分类算法是解决基因表达谱分类途径之一。本文提出了一种基于闭合模式的多类别分类算法DMAC。针对基因表达数据集的特点采用行枚举思想,通过对行集建立行FP-tree,构造路径枚举树的路径枚举PEA算法来挖掘闭合模式。提出了权重算法QZ,通过构造权重函数,对分类器无法识别的样本用权重进行判断,改进了二类分类器的性能。在对四类数据集的测试中取得了好的实验结果。算法有效地解决了基于关联规则的多类分类问题。3.本文对处理多属性多类标数据决策树算法MMC和MMDT机制进行了研究分析,提出了新的相似度公式sim3。由于sim3综合考虑了类标集的相似度和行为一致性,在此基础上构建的决策树算法SCC_SP与MMC及MMDT相比有更好的性能。针对图像颜色迁移问题,研究了二种单源图像颜色迁移算法,在此基础上提出了一种基于多类标决策树的多源图像颜色迁移算法。以多幅源图像中的图像块作为训练样本,提取其颜色、纹理特征以及类标集,建立基于多源图像的多类标决策树;利用多类标决策树对目标图像各图像块进行分类决策,从而实现对目标图像的颜色迁移,其方法弥补了单源图像迁移参考信息不足的缺点,为多源颜色迁移提供了新的借鉴和参考。4.针对无线传感器网络事件区域检测问题,本文提出一种分布式加权容错分类检测算法。针对无线传感器网络的特点,考虑“邻域的邻域”的容错范围,首先通过邻域节点与其周围节点的信息交换,对邻域节点的状态值进行估计,然后采用加权方法对邻域节点的估计状态值进行加权综合,完成对中心节点的错误检测和分类处理。仿真结果表明,该算法在传感器网络初始错误率达到20%的情况下,仍能够检测和纠正90%以上的错误。相比其他算法,该算法具有较高的错误检测精度,改善了事件发生区域边界节点的纠错性能,且算法运行时整个网络所消耗的能量适中。