论文部分内容阅读
特征提取是文本分类技术中的一项重要任务,特征提取的效果会直接影响文本自动分类的效率和稳定性。简单的说,特征提取就是从原始的多个自变量中提取出很少的解释变量,在尽量不损失分类准确率的前提下,将最能区分文档类别的特征项挑选出来。特征提取在多元分析领域,是很重要的一块内容。但是在文本自动分类的研究中,特征提取问题表现出新的特征,处理起来也更加复杂。首先是数据的稀疏问题,目前针对文本的研究,首先需要将文本转化成为可处理的结构化数据模式,较通用的方法是将文本变成高维的向量空间模型,这一过程中往往有大量的0出现。因为一个词语在某篇文档中出现,在其他文档中未必出现。尤其在中文语境中,这一问题更加突出。其次是稀疏降维,稀疏降维是指通过数学方法使得大部分解释变量系数变成0。一般来说,要处理的文档向量矩阵,变量数远远大于观测数。传统的特征提取技术,主要是基于矩阵分解、相关性和信息论的理论。基于矩阵分解的技术,从数学上更加完美,但是要求的矩阵计算难度比较高,此外,分解出的成分很难在实际问题中给出合理的解释。基于卡方法或者互信息等标准得到的特征容易解释,但很难从全局中给出最优的结论。所以期望找到一种方式可以将两种方式结合起来。一方面可以从理论上找到最优的解,另一方面希望提取出的特征保留可解释性。 本文首先对目前不同领域学者对特征提取方法的研究进行了梳理,将各领域对这个问题的定义和分析进行了总结,(计算机领域的特征提取,统计领域的变量选择,文本分类领域的特征减少,文本聚类领域的稀疏降维等都属于这一框架),尝试去解释这些分析思路之间的相通点。希望能从一个统一的框架下,去看待和处理问题。在分析前面研究的基础上,本文提出了基于模型思想的最大差异化方法进行特征提取。最大差异方法,首先对原始文档词频矩阵进行变换,将问题的分析视角进行了重新的定义,把分类问题转化成聚类问题,对于属于某个特定文档类型的向量,把它看成是来自混合分布的一个样本群体,通过定义不同文档类型的组间差异,组内差异进行寻优,并本着使组间差异最大的思路进行分析。在求解过程中,通过对目标函数中的系数施加罚值进行约束,使算法快速收敛。该算法十分简单,可以大大节省运算上的各种消耗。经过实际数据检验,得到该方法对于提高算法的准确性有一定的提升。 为了检验最大差异化方法的有效性,将该方法推广到不同类型的文本数据中,首先针对平面分类问题进行了探讨,证明了算法的有效性。此外将这种算法应用到了文本层次分类中,传统的文本分类算法没有考虑类别间的层次结构,而实际应用中,各个类别之间并不是独立的关系,他们之间往往可以组织成一个概念结构树的模式。这种组织结构可以方便用户的浏览、搜索及可视化操作,组织结构本事就是非常实用的信息。文本层次分类的问题主要有两种解决思路:一种是将问题分解为若干个小的分类问题,得到底层的分类结果之后,再逐一判断上一层次的类别。分解的方法在每一个节点处学习一个模型,可以利用多种算法建立得到这些分类器,利用这些分类器的综合结果,判断目标文本的类别归属。但是当基类数量比较多时,分类器将很庞大,分类效率和准确率都将受到影响。另一种是把层次分类问题看成是一个更一般的多分类、多标签的分类问题来进行求解。针对文本的层次分类中目前主要存在的分支节点分类器之间独立,且分析方法非全局性的特点,本文从自下而上的方法入手,分类时以基类信息作为分类标签,利用底层的信息来填补非独立性的因素。在克服偏度影响方面,本文采取了两步走的策略,不直接在每个节点训练分类器,而是通过从不同节点得到特征后,利用层次结构信息对其调整,最后将所提取的特征汇总到一起,使用分类算法进行统一分类,依次得到不同样本的分类结果。最后使用Opinion数据对方法进行测试,发现利用准确率,父类准确率,结构损失等评价指标对分类结果进行判断,结果有一定的优势。