论文部分内容阅读
传统的文本分类方法在类别数目较少时取得了很好的分类效果。然而,随着类别数目越来越大,如LookSmart、ODP等都有成千上万的类别,如果还利用扁平化方式组织这些类别,那么为一个文档正确的指定其目标类别的难度就变得非常大。所以,实际应用中通常将这些类别组织成层次结构。基于层次结构,学者们引入了层次文本分类方法。比较常用的层次文本分类方法有Big-bang分类方法和Top-down分类方法。由于Big-bang分类方法的时间开销和空间开销较大以及Top-down分类方法“阻滞”现象的不可避免性,传统的层次文本分类方法并不能很好的应用到大规模层次文本分类中。而新近提出的两阶段层次文本分类模型(THTC模型)是一种解决大规模层次文本分类问题的有效方法。相对于传统层次文本分类方法,THTC模型在分类性能和时间效率上都有了显著提高,但是该模型在分类过程中仍然存在很多不足。因此,本文在THTC模型的基础上提出了基于邻居辅助策略的两阶段层次文本分类模型(THTC-NA模型)。本文的主要工作包括以下三个方面:(1)系统的研究了层次文本分类中的方法和应用,并在THTC模型的基础上提出了THTC-NA模型。THTC-NA模型包含搜索和分类两个阶段,搜索阶段通过引入基于类别的搜索策略进行候选搜索,对原类别层次结构进行虚拟剪枝,以减小数据规模。并采用Top-down方法将候选类别组织成层次结构,这样可以保持该层次结构在原类别层次结构中的位置不变,从而可以不用对每一个待分类文档都训练一个特殊的分类器。(2)分类阶段利用类别层次结构中各个节点的邻居节点的分类结果辅助对该节点的分类判决,并针对邻居节点可靠性未知的问题引入了置信度。同时,以层次路径做全局搜索,避免了由于单一节点误判可能导致局部最优陷阱。在数据集Newsgroups-18828上的实验表明,邻居节点的分类结果对指定待分类文档的目标类别有很好的辅助作用。(3)针对THTC模型未能充分利用搜索阶段的信息的问题,THTC-NA模型提出一种新的分类判决方法。该方法将搜索阶段的结果和分类阶段的结果都融入到分类模型中,以加权累加的结果作为最后的分类判决。实验结果表明:融合两阶段的结果判定待分类文档的目标类别的方法在分类准确率和宏平均F1值上都要优于只使用分类阶段的结果判定文档的目标类别的方法。