论文部分内容阅读
随着近些年来信息技术的迅速发展,当前社会的信息量呈爆炸式增长。在有效检索、利用数据方面,数据挖掘技术扮演着重要角色。其中,数据分类作为一种基础技术,为信息的自动识别、归档提供了基本手段,在数据挖掘中起着关键作用。当前随着信息来源渠道的多元化和数据规模的海量化,数据的类别信息以及分类中的数据处理环节更容易受干扰,而目前在实现具有强抗干扰能力的分类方法方面仍有待于进一步深入展开研究。为提高随机环境中数据的分类效果,本文在学习自动机(Learning Automata,LA)理论的基础上,对参数连续的LA分类方法的收敛性质、强化方案,更新规则等进行深入研究,并提出相应分类方法。
首先,本文对广义学习自动机(Generalized Learning Automata,GLA)分类算法进行深入研究,分析了可能导致学习速度变慢以及收敛不稳定的因素,并给出了可行的解决方案。文中将GLA与变步长的启发式规则相结合,提出了一种基于自适应步长的改进型学习算法。该方法利用随机梯度信息间的相关性,在学习过程中适应性地调整步长,并通过恰当的阈值过滤不合理的更新以取得鲁棒性。同时文中还详细地给出了步长变化特点的理论分析。实验结果表明,改进后的算法能更好地兼具学习速度和稳定性,同时还保持了GLA原有的抗噪性能,为标签噪声环境下的分类问题提供了性能更好的方案。
其次,分析了传统斜决策树节点分割平面搜索技术的特点和不足,针对斜决策树生成算法中因数据采样而导致分割适合度评估值受干扰的问题,提出了以连续行动学习自动机(Continuous Action Learning Automata,CALA)作为分割优化手段的斜决策树生成算法。该算法使用单维最优分割作为CALA的初始状态,在随机环境中的具有较稳定的搜索能力,能够在评估干扰严重的环境中保持较高的准确性。实验结果表明,该方法切实可行,有效地提高了斜决策树生成算法对评估噪声的容忍能力。
首先,本文对广义学习自动机(Generalized Learning Automata,GLA)分类算法进行深入研究,分析了可能导致学习速度变慢以及收敛不稳定的因素,并给出了可行的解决方案。文中将GLA与变步长的启发式规则相结合,提出了一种基于自适应步长的改进型学习算法。该方法利用随机梯度信息间的相关性,在学习过程中适应性地调整步长,并通过恰当的阈值过滤不合理的更新以取得鲁棒性。同时文中还详细地给出了步长变化特点的理论分析。实验结果表明,改进后的算法能更好地兼具学习速度和稳定性,同时还保持了GLA原有的抗噪性能,为标签噪声环境下的分类问题提供了性能更好的方案。
其次,分析了传统斜决策树节点分割平面搜索技术的特点和不足,针对斜决策树生成算法中因数据采样而导致分割适合度评估值受干扰的问题,提出了以连续行动学习自动机(Continuous Action Learning Automata,CALA)作为分割优化手段的斜决策树生成算法。该算法使用单维最优分割作为CALA的初始状态,在随机环境中的具有较稳定的搜索能力,能够在评估干扰严重的环境中保持较高的准确性。实验结果表明,该方法切实可行,有效地提高了斜决策树生成算法对评估噪声的容忍能力。