论文部分内容阅读
自动文本分类(也称文本分类)一直都是互联网信息处理的研究热点。随着实际应用中类别体系的灵活性要求越来越高和细分类别数目的急剧增长,文本分类中标准语料库的自动构建就成为真实应用中分类器构建的关键问题之一。另外,文本词级别特征忽略了文档作为一个有机整体时词与词之间的关联关系,以及基于质心的分类方法对比困难、适用场景不明确、分类效果一般,也一直都是文本分类的主要问题。针对上述问题,本文围绕文本分类中语料库构建、特征抽取和分类方法三个关键问题展开深入研究。研究内容主要包括:基于网页结构的文本分类语料库自动构建方法。由于固定的分类体系无法满足用户实际应用需求,而互联网大规模网站资源中蕴含了丰富的文本分类知识,为此,本文利用丰富的网络资源,借助网页结构、内容和链接关系,基于聚类的无监督标准语料库过滤,最终完成整个文本分类语料库的构建。实验表明基于网页结构的文本分类语料库自动构建能够达到73.73%的准确率,表明这一方法具有良好的可行性。有监督文本宏特征抽取方法。传统的文本特征抽取方法往往忽略了文本之间的关系,为此,本文基于文档之间的关系来抽取特征,并称为宏特征。根据标注语料所占比例对分类性能的影响,设计实现了基于聚类的宏特征抽取方法、基于聚类加权的宏特征抽取方法和基于质心向量的宏特征抽取方法。实验表明,在传统微特征的基础上,加入每种宏特征后对文档进行分类,文本分类性能都得到了有效提升。文本宏特征融合方法。考虑到在不同应用中能够获得的标注数据的规模不同,本文提出了有监督和无监督两种互补类型的宏特征融合方法。从模型融合和特征融合角度出发实现了基于Bagging和特征增广的宏特征融合。无监督宏特征抽取方法包括基于K-means的宏特征抽取方法、基于LDA的宏特征抽取方法和基于DBN的宏特征抽取方法。融合后的宏特征再结合传统的微特征共同作为特征来进行文本分类。实验表明,在传统文档微特征上加入融合后的宏特征比单独加入有监督或无监督宏特征能够获得更好的文本分类性能。基于排序学习的质心文本分类方法。基于质心的文本分类方法由于其模型简单、训练时间短等特点而倍受关注。由于目前已有的基于质心的分类方法基本原理各不相同,使得对比和性能改进相对困难,而且总体的分类精度不高。为此,本文提出了一个基于排序学习的质心分类方法的统一框架。在这个框架下,分类问题被转化成排序问题来看待,通过信息检索技术优化原型向量。基于此框架,本文将目前常用的三种基于质心的分类方法用该框架统一表示,并在此基础上,提出了新的基于排序学习的质心分类方法。实验表明,本文提出的基于排序学习的方法比其他三种常用的基于质心的分类方法在性能上都有较大的提升。