论文部分内容阅读
随着Internet的迅猛发展和日益普及,电子文本的数量急剧增加,如何有效地组织和管理海量电子文本,并快速、准确、全面地从中找到用户所需要的信息是当前信息科学与技术领域面临的一大挑战。文本分类作为处理和组织大量文本数据的关键技术,可以在较大程度上解决信息杂乱的问题,方便用户准确地定位所需要的信息。同时,作为信息过滤、信息检索、搜索引擎、文本数据库、数字化图书馆等领域的技术基础,文本分类有着广泛的应用前景。本文给出一种基于模糊关联规则的自动文本分类方法。该方法汲取了传统的关联规则分类算法的优点,并引入了模糊集理论。与一般分类规则相比,模糊关联规则中不仅包含词条,而且包含了词条在文本中出现的频率。通过词频来区别词条对文本分类的不同作用,可以更为精确地限定与文本相匹配的规则的范围。实验结果表明该方法是可行的,与传统分类方法相比,分类的准确率有了明显提高。由于模糊关联规则比一般规则复杂,致使构建模糊文本分类器和应用其分类新文本的效率都有所降低,同时也增加了存储开销,为此我们又从以下几个方面对模糊文本分类器进行了深入研究和优化。首先,在挖掘模糊关联规则时,对于不同类别的文本集,不再采用统一的最小支持度阈值,而是根据文本集的特性,将给定的支持度阈值通过模糊函数转化为适合该文本集的阈值,使用转化后的阈值对规则的生成过程加以限制,在一定程度上解决了阈值设置不当所带来的问题。其次,给出一种快速挖掘模糊关联规则的算法。该算法对频繁2-项集和频繁k-项集(k>2)的生成采用了不同的处理方法,规则的生成过程中只需要遍历数据库两次,大大提高了挖掘效率,且不需要保存候选项集,节省了存储开销。最后,针对通过遍历分类器分类新文本的方法效率低的问题,给出一种基于模糊分类规则树的文本分类方法。分类器中的规则以树的形式存储,由于树型结构可以共享相同结点,节省了存储空间;在分类新文本时,由于不需要遍历没在新文本中出现的词条所引导的子树,大大减少了需要匹配的规则的数量,提高了分类效率。实验表明,优化后的基于模糊关联规则的文本分类方法的整体性能得到了明显改善。