论文部分内容阅读
在对数据进行分类时,数据本身所具有的某些不良特点,如噪声影响、簇间密度变差显著、类间不平衡和特征维方差各不相同等问题都会影响分类效果。因此,研究适应不良数据特点的分类算法,具有重要的理论和应用价值。目前,虽然有DBSCAN, Trimmed k-means等算法也能处理一些不良特点的数据,但是渴求一种通用的处理所有不良类型数据的分类算法是不现实的,根据数据的特点研究一些有针对性的抗干扰算法逐渐形成一种共识。本文受分子动力学原理的启发,在数据点之间引入引力和斥力的相互作用机制,并结合数据点在原始特征空间和迭代空间的距离、簇密度差和近邻性等信息,提出了仿分子动力学数据聚类法;同样考虑近邻性和特征维方差等因素提出了椭球-平面分类法,并改进了基于核密度估计的数据分类算法。新的聚类方法除是对带噪声、簇间密度变差明显的数据具有好的适应力外,不需要预先设置簇个数,可自动发现数据中可能包含的簇,并解决了引力模型中的黑洞问题。基于核密度估计的数据分类法是实际应用中的常见分类法,它在处理不平衡类时可能出现诸如少数类的数据点错分到多数类的问题。为了使该方法可处理不平衡类带来的影响,并在不平衡类问题严重时也能发挥好的效果,本文对其进行了改进,在基于核密度估计的数据分类法中引入具有较小搜索区间的平滑因子,增强了其对不平衡类的适应力。实验表明这种改进是有效的,它提高了原方法对不平衡类的适应力。事实上,像基于核密度估计一类的分类方法在预测阶段由于可能涉及整个样本集的计算,当数据集规模较大时其预测开销可能会很大。为了达到减小预测开销,同时又使模型兼备包含数据在特征维上方差信息的特点,本文提出了一种新的椭球-平面分类法,它是一个两阶段的监督型分类方法。该方法利用椭球面和平面分类参考面进行分类,由于分类时待测点只需与相应的参考面进行计算,使其时间开销小于基于距离的k最近邻点方法和基于核密度估计一类的方法,并且强化了邻近性原则。以上算法除理论分析外,基于标准数据集都与其他现有方法进行了对比试验,确认了理论推导的正确性,为不良数据分类提供了新的有价值的探索研究。