论文部分内容阅读
在模式识别中,数据选择越来越重要,对识别的效果起着很关键的作用,尤其是边界数据、冗余数据、杂质数据对分类效果的影响,它大大降低了样本识别率,成为实际问题中亟待解决的难题。本文针对边界数据、冗余数据、杂质数据三种数据,对两种已有的方法进行了拓展,并给出了一种新的数据选择的方法,主要研究成果可归纳如下:1.K近邻法通常是按照样本之间的距离来选择K个近邻,本文用特征分量来选择K个近邻,该方法的优点是按照分量来找K个近邻,而不是用整体样本来找K个近邻,避免了样本中某一分量的负面影响。2.在剪辑近邻法中通常涉及到两个集合:测试集和参考集,本文通过相互变换两个集合对剪辑近邻法进行了拓展,改进了原来的剪辑近邻法,在很大程度上提高了样本识别率。3.为了去除冗余的数据,保留稳定的或者可靠的数据,我们提出了一种新的方法来完成样本选择的过程。其主要思想是用K均值聚类方法先将样本分成C类,然后在比较新旧两类样本集,并取出它们的各自公共元素(样本)作为更新的样本集。此时,更新的样本就是比较稳定的样本。另外为了表示不同样本在每一类中的重要性,我们在更新的样本中给出一种新的模糊关系。文章的最后,作者总结全文,指出了有待于进一步解决的问题,并对数据选择的前景作出了展望。