论文部分内容阅读
随机森林作为一种重要和常见的数据挖掘算法,具有分类性能高、参数少、运算效率高、容忍噪声等优势。此外,随机森林还具有变量重要性度量、OOB误差估计(Out-of-bag,OOB)和样本之间相似度估计等功能。这些优越的性能使得随机森林在各个领域都得到了广泛的研究和应用。在传统的随机森林变量重要性度量(VIM)方法中,决策树OOB误差率并不能真实地反映泛化性能;且当存在相关变量时,决策树OOB误差率对变量的随机置换并不敏感,尤其是在高维数据上,从而导致VIM对变量的重要性测量存在偏差,且做为一种特征选择算法存在不稳定的性质。针对以上问题,本文依据随机森林间隔的定义来进行改进,提出了基于间隔序列的变量重要性度量算法(VIM-MS),用某个变量随机置换前后的两条间隔序列的相似度来度量该变量的重要性,并综合特征选择算法的稳定性与分类性能来评价VIM和VIM-MS。在基因数据集和UCI数据集上的对比实验中,VIM-MS取得了更好的稳定性,且没有为此牺牲分类精度。现有的概率随机森林方法主要有叶频率、Laplace估计、m估计,这些方法输出的后验概率不稳定且偏差大,而且没有考虑到同一叶子节点上不同待测样本之间的差别。针对以上问题,本文提出了改进的方法——基于随机森林的核密度估计(RFPE-KED),即利用非参数核密度估计法估计出类条件概率密度函数,再利用叶斯公式得出后验概率,为随机森林的分类结果提供风险概率。针对核密度估计在高维数据上的局限,提出了降维方法--即在决策树所在特征子空间(RFPE-KEDI)、结点所在特征子空间(RFPE-KEDII)、随机森林相似度空间(RFPE-KEDIII)中进行核密度估计。为进行对比,我们也给出了在随机空间(RFPE-KEDIV)和原空间(RFPE-KEDV)上的核密度估计结果,并用MSE来评价概率随机森林与RFPE-KED的性能。在人工数据上的对比试验中,RFPE-KED比概率随机森林输出了更精确的概率。