论文部分内容阅读
文本是信息最基本、最常用的载体之一,随着信息技术的飞速发展,文本信息迅速膨胀。如何有效地组织和管理这些海量信息,并且能够从中快速、准确、全面地找到所需要的信息是当前信息科学与技术领域面临的一大挑战。文本分类技术是组织和管理文本信息的有力手段,也是信息检索和数据挖掘的重要基础。本文在分析文本分类相关研究的基础上,结合正则化线性统计模型的思想及其发展,从特征降维及表达、分类器的快速学习、以及降维和分类一致性模型等方面展开研究,完成了如下的一系列工作:1.提出了一种基于类别信息融合的非负矩阵分解的文本降维算法。针对传统的非负矩阵分解在实现降维时难以利用多标签类别信息的情况,通过类别编码并扩展维数的方式实现将类别信息融入矩阵分解,从而达到提高系统抗干扰能力并增强基的判别性的目的。之后通过对矩阵分解施加约束项驱使基向量正交归一化以减少其冗余信息。最后通过矩阵裁剪及变换实现了将文本数据从高维项空间映射到由一组非负基向量张成的低维语义子空间的降维目的。实验结果表明,该方法提高了基的判别能力,在维数降到很低情况下仍然获得很好的分类性能。2.提出了一种面向文本分类的非负稀疏语义编码算法。针对常见的降维方法产生的稠密表达与常识不符,以及通常的稀疏表达方法耗时且可能存在负元素(难以解释文本语义)等问题,本文开发了一个高效的字典构造算法,该字典包含的一组非负基向量可以张成一个语义子空间,在其中,所有的文本被表示为非负稀疏形式,这种编码方式符合一篇文档通常只包含不多的语义概念的实际情况。实验结果表明,该方法不仅达到了很好的分类性能,而且也获得了较好的可解释性。3.提出了一种基于极限学习机的文本分类算法。极限学习机是近年来快速发展的一种机器学习方法,其模型通常可以通过解析方式获得,避免了模型学习过程中常见的收敛性问题,从而达到很高的学习速度。本文针对极限学习机应用在高维稀疏文本数据上的一些问题,构建了一个正则化极限学习机模型,并给出其相应的解析解和理论证明以保证解的存在性。之后,根据模型的结构特点给出了相应的分类方法。实验结果表明,该方法在分类性能上优于BP神经网络,与支持向量机相当,但在学习和分类速度上均远超BP神经网络或支持向量机。4.提出了一种基于分组结构的正则化回归模型的文本分类方法。目前,基于lasso约束的回归模型可以较好地解决降维和分类不一致的问题。但文本特征的相关性常会导致这类模型过度稀疏(丢失较多的判别特征)。本文通过聚类方法获得相关特征的分组结构,并将该结构以正则化方式嵌入logistic回归模型,通过在组间及组内同时稀疏化实现在模型中保留重要的组并消除组内噪声的目的,最后在对应的模型上实现分类。实验结果表明,该方法在模型稀疏度和性能之间获得了很好的平衡。