论文部分内容阅读
随着Internet的迅猛发展和日益普及,网络文本信息急剧增长,如何有效的组织和管理这些海量信息,并能够快速、准确、全面地获得用户所需要的信息是当今信息科学技术领域面临的一大挑战。文本分类作为处理和组织大量文本数据的关键技术,可以在较大程度上解决信息杂乱现象的问题,方便用户准确地定位所需要的信息和分流信息。而且作为信息过滤、信息检索、搜索引擎、文本数据库、数字化图书馆等技术基础,文本分类技术的研究具有重要的理论意义和广泛的应用价值。 然而目前大多对文本分类对象还仅是文本内容,而忽略了网络文本的标题、关键字、摘要等信息对文本类别的贡献,如何综合利用这些信息提出高效、准确的分类算法是本文的热点研究内容之一。本文提出了通过KNN算法对文本各要素进行分类,再使用贝叶斯定理综合多分类器,最后通过模拟退火算法协调各要素比重的多要素中文文本分类算法。实验证明该算法能够有效的解决多要素文本分类问题并且与传统的文本分类方法相比有更高的分类准确率。 基于KNN的多要素中文文本分类协调算法主要包括以下三各方面: 基于KNN算法的中文文本分类研究与实现。主要研究了不同特征维数和不同特征选择算法对分类器的影响,不同K值下KNN算法的分类性能。最后根据实验结果,选择最优的特征维数、特征选择算法以及K值对各要素构造分类器,再使用分类器得到测试文本集的类别信息,最后对分类结果进行评估。 提出并实现基于Bayes定理的多分类器协调算法。该算法将Bayes定理运用到多分类器的协调上来,主要根据各分类器的分类结果以及分类器的分类性能,结合Bayes定理重新计算文本分为各个类别的概率。 完成模拟退火算法在多要素文本分类上的应用。由于多要素文本中各个要素对文本类别信息的贡献度互不相同,因此提出将模拟退火算法应用到协调多要素的权重上,并通过实验证明该方法的可行性与有效性。