论文部分内容阅读
每天,世界上产生浩如烟海的数据,这些数据不仅在规模和复杂程度上与过去的数据天差地别,而且许多数据具有不确定性、不一致性和模糊性等特点。因此,如何从这些数据中高效地获取知识迫在眉睫。基于此,数据挖掘分类技术中的一个领域——决策粗糙集,因其解决此类问题的有效性,得到了许多学者的关注和研究。其中,属性约简问题一直在该领域研究中占据着重要的位置。目前决策粗糙集属性约简研究主要可分为两类:(1)不考虑分类需要花费的代价;(2)考虑了代价(即代价敏感),使代价最小化。在第一类研究中,其目标是获得分类精度最高的属性集。在第二类研究中,其目标是获得具有最小分类代价的属性集。因此,第二类属性约简后的属性个数会变得更少,但同时也带来了分类精度不高的问题。在实际应用中,适当降低代价和减少属性个数是必要的,但是分类精度无疑具有更重要的地位。因此,本文着重研究了决策粗糙集属性约简中的分类代价和分类精度的平衡问题,完成的主要研究工作如下:1.对决策粗糙集属性约简的国内外研究现状和发展趋势做了较充分的文献调研,了解了该领域研究前沿的情况,并确定了论文研究的主题。2.研究了在分类代价约束下的属性约简问题。代价敏感属性约简中的分类代价,主要包括误分类代价、测试代价或包含两者的总代价。约简后得到的是具有最小代价的属性子集,但此类属性集的分类精度往往不高。鉴于此,本文兼顾分类代价和分类精度的平衡,提出了一种在分类代价的约束下,基于属性重要度的风险决策粗糙集属性约简算法(简称为ARAIM算法)。该算法采用贪心算法的思想,每次选择具有最高属性重要度的属性,如果该属性加入后仍满足分类代价约束,并使得近似分类质量提高,则将该属性加入约简后的属性集。实验研究表明,在代价约束条件下,该算法能够找到一个具有较好近似分类质量的属性集,与不考虑代价获得的属性约简集相比其近似分类质量相差非常小。3.研究了在分类代价约束下,求解具有最高分类精度的属性约简集问题。按照以上的ARAIM算法进行属性约简,获得的是满足分类代价约束下的具有较好分类精度的属性集,但不能保证得到具有最高分类精度的属性集。为了解决这个问题,本文综合考虑分类代价和精度,并结合模拟退火算法进行搜索寻优,提出了一种基于代价敏感和近似分类质量的决策粗糙集属性约简(ARACOQ)算法。该算法通过模拟退火算法探索不同属性的随机组合,从而搜索满足约束条件并具有最高分类精度的属性约简集。实验结果表明,ARACOQ算法在多项式时间内,能够找到满足分类代价约束的、具有最高分类精度的属性约简集。