论文部分内容阅读
随着Internet的迅猛发展和电子文档信息的不断丰富,文档自动分类日益成为信息检索和自然语言处理领域的研究热点。基于贝叶斯模型的文档分类具有简单、直观、性能稳定的优点,但面对复杂的文档分类问题,仍然存在许多急待解决的问题。本文将针对贝叶斯文档分类的几个关键问题进行深入研究和探索,具体内容和创新成果概括如下:(1)对以朴素贝叶斯模型、半朴素贝叶斯模型、树形增强朴素贝叶斯模型为代表的广义朴素贝叶斯模型在网络结构、分类原理、学习方法等方面的异同进行理论分析,证明通过有效的贝叶斯结构改进,可以提高模型的文档分类性能。这为进一步提升贝叶斯模型提供了理论依据。(2)提出一种基于关联特征扩展的特征选择算法。特征选择对文档分类的性能影响很大,即便是同样的分类器在不同的特征集上的性能也会有很大的差异。论文通过对现有特征选择算法的分析,总结出现有特征选择算法的三个问题:特征空间不完备;特征集中信息冗余明显;特征选择的效率不高。针对这些问题,论文提出先利用关联特征对原始特征集进行扩展,再利用改进的相关性分析测度和启发式规则进行冗余检测和特征选择的方法。由于算法避免了对所有特征对之间的相关性分析,因此具有O ( NlogN)的算法时间复杂度,同时通过冗余分析和排除,增加了特征集的信息量。(3)提出一种贝叶斯潜在语义模型。与传统贝叶斯模型相比,该模型最大的特点在于不仅考虑了词条在文档中的统计特征,而且对每个词条在不同上下文中的语义进行了辨析。通过将概念特征引入到贝叶斯模型中,建立起传统特征与概念,概念与类别之间的映射关系,借助这种映射关系可以更好的利用词频和词义进行文档分类。对模型训练时面临的数据缺失和效率问题,论文采用了改进的EM算法和特征优化、概念选择等预处理,提高了潜在语义模型的分类精度和学习效率。(4)提出一种新的半监督语义分类模型。模型以语义支持向量机和贝叶斯潜在语义模型为基础,利用大量无标记样本和协同训练算法Co-models,对模型在少量标记样本集中的性能加以改进。与传统协同算法Co-training不同,算法Co-models不对文档集有任何依赖和限制,而是利用不同模型间的固有差异,反复对无标记样本进行分类和样本集扩充,并借此逐步提高协同模型对无标记样本的分类精度。通过在文档集Reuters-21578和20NG上的实验,证明该模型在少量标记样本集中同样可以取得较好的泛化性能。(5)提出一种语言独立的贝叶斯集成分类模型。现有文档分类模型一般只针对