论文部分内容阅读
粗糙集理论是Z.PAWLAK 1982年提出的一种处理不精确、噪音的、或不完整的不确定问题的强大工具,在人工智能,认知科学,或者在不精确知识表示及推理,机器学习,知识发现等众多领域都有重大的方法论意义。信息系统的约简是粗糙集理论的关键,为了从信息系统中提取出知识规则,我们必须把信息约简。约简是在不损失信息表述能力的前提下,求得一个最小属性集。显然,属性约简是一个提取子集的过程,但同时也是保留了表述能力,具有最小冗余。许多研究者正在研究高效的特征提取算法。这些技术已经成功的应用在数据约简,文本分类,文本分析中。基于记忆的启发式搜索是一种很有前景的智能计算工具,如Tabu搜索,在许多组合搜索问题中都表现了优异的性能。然而,在信息系统和数据挖掘中,他的贡献仍然逊于其他智能工具,如遗传算法、神经网络。本文,我们提出了一种基于Tabu搜索的方法,称为TSAR(Tabu Search for Attribute Reduction)来解决信息系统的属性约简问题。TASR使用0-1变量来表示约简过程中的解,粗糙集的依赖度函数用来度量解的质量,TSAR的搜索过程是个长期记忆的高性能禁忌搜索,除了使用的邻域搜索方法,TSAR还运用了广泛性和集中性的搜索模式。本文中的TSAR算法使用TS邻域搜索来解决信息系统的属性约简问题,主要基于两个主要概念:避免访问已经访问过的解;接受下山移动方法跳出局部最优。保留一些历史信息使搜索进程更智能化,显然,广泛性和集中性机制通过保存实时的最优约简和每个属性的选择频率而选择更好的解,期间TSAR调用三个过程:产生多样解,最优解震动来减小约简集的势,产生精英解。与文献中算法在10个经典数据集上比较,从试验结果看来,本文提出的TSAR算法在约简质量上很有竞争力,且依赖度函数的计算开销比较小。