论文部分内容阅读
随着科学技术的飞速发展,人类社会每天都会产生大量的数据信息。面对如此庞大的数据信息,迫切的需要能够处理大量数据的有效方法。粗糙集理论作为一种能够有效处理数据并进行知识获取的数学工具就应运而生。由于经典粗糙集模型要求比较严格,使粗糙集在实际应用中受到限制,因此概率粗糙集、变精度粗糙集以及决策粗糙集等扩展模型被提了出来,以便提高粗糙集理论在实际应用中的容错能力。近年来对这些扩展粗糙集模型的研究极大的丰富了粗糙集的理论,然而仍有一些问题值得进一步研究,如这些扩展粗糙集模型的不确定性如何度量,在粒度变化的情况下它们的不确定性将会如何变化,以及在文本分类实际应用中,如何将粗糙集理论应用到文本分类当中,得到一个分类精度和分类效率都比较好的算法。本文在前人研究的基础上主要做了以下几方面的内容:首先,针对概率粗糙集、变精度粗糙集以及决策粗糙集这类带有参数的扩展粗糙集模型,以概率粗糙集为例子进行了认真的研究分析,从三个域(正域、负域和边界域)考虑,提出了一种新的概率粗糙集模型的不确定性度量公式。并根据增量信息所带来的不同分类效果定义了三种增量信息。在此基础上讨论了知识粒度变化情况下,概率粗糙集模型的不确定性的变化规律。其次,根据提出的不确定性度量公式,得到了粗糙集近似集的不确定性度量公式,并讨论了在阈值?变化的情况下,粗糙集近似集的不确定性的变化情况,并通过实例说明了结论的正确性。最后,在粗糙集近似集理论研究的基础上,将近似集模型应用到文本分类实际应用中。针对KNN文本分类算法效率低的问题,提出了一种基于粗糙集近似集的KNN文本分类算法,该算法在保证分类精度基本不变的情况下能够极大地提高分类效率,并通过实验证明了该算法的有效性,进一步促进了粗糙集理论的实际应用研究。