论文部分内容阅读
文本分类是文本信息处理的基础性工作,早就受到很多关注。但是,随着社会网络化的发展,大规模的甚至海量的文本信息急剧增加,导致文本分类问题面临着巨大挑战。本文从文本的表示和支持向量机的高效训练两个方面展开了创新性和探索性研究:1.文本通常表示为单词特征上的权值向量的形式。每个特征的权值一般用单词在文本中出现的频率及在不同文本间出现的次数来计算。本文在实际数据集上观察了这些度量取值的分布特点,得到了两个启发式的规则:在做特征选择时,宜选择中间频率的特征,或者按特征频率分为高中低三组;而传统的IDF权因子可以用训练集上总的TF来加强。2.短语表达的语义比单词更丰富,但传统上是用特征选择算法来选取一个短语子集作为文本的特征集。本文从语法分析树的节点层次的角度来选择短语,这种方法能够可更好地反映短语在句子结构中的语义地位和作用。对比实验表明,新的表示方法提高了正例的召回率。3.向量空间模型的语义化改造通常都利用相邻单词间的语义关系,或者非相邻甚至不出现的单词间的词典语义关系。本文利用上下文中的指代关系所给出的不相邻单词间的语义关系来改善特征的权度量。这种增强的加权度量可以从语义层面上更准确地表达特征的真实频率。经验研究表明,新表示方法提高了正例的召回率。4.核矩阵的cache缓冲是SVM分解优化求解的重要加速技术。但是传统的分解算法未必总表现出很好的局部性特点。本文提出了一种三层工作集选择框架,以直接控制迭代过程的局部化。结合多种工作集选择算法,有效地实现了对分解优化算法进一步加速的效果。5.对于大规模文本分类问题,利用逐步求精的思路,把它化为两阶段来处理是一个有效策略。直观上,两分类问题中每类数据的分布轮廓对于分类任务才是最重要的。本文用一个平面拟合每类数据,并把拟合问题转化为一个最小包球问题。进一步注意到,若用核集优化求解,则所产生的核集coreset能反映分布轮廓。对比实验表明,在这种很小的子集上训练SVM分类器具有非常高的效率,也可以得到非常稀疏的解。6.不同于前面用一个平面孤立地拟合其中一类数据,进一步纳入两类数据间的分离性来建立新的平面拟合模型。即平面不仅要拟合指定类别的数据,还要使得另一类数据尽量位于它的一侧。实验表明,改进的算法保持了与问题规模和维度无关的处理效率,同时具有与标准SVM类似的平均泛化能力。7.进一步探讨另外一种结合分离性的方法。即除了要求平面拟合指定类别的数据外,不仅要求另一类数据要尽量位于它的一侧,还要求离该平面尽量远。实验结果显示,新的改进算法平均泛化能力也与标准SVM相近,而且具有更大的潜在处理效率,因为每个平面的拟合代价几乎等效于一半数据上的计算开销。