特征提取技术在文本自动分类领域的探索与应用

来源 :中国人民大学 | 被引量 : 0次 | 上传用户：yinhuali

【摘要】

：

特征提取是文本分类技术中的一项重要任务，特征提取的效果会直接影响文本自动分类的效率和稳定性。简单的说，特征提取就是从原始的多个自变量中提取出很少的解释变量，在尽量不损

【作者】

：

刘苗

【机构】

：

中国人民大学

【出处】

：

中国人民大学

【发表日期】

：

2011年期

【关键词】

：

数据库文本分类特征提取技术算法优化

下载到本地 , 更方便阅读

下载此文赞助VIP

声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架

论文部分内容阅读

特征提取是文本分类技术中的一项重要任务，特征提取的效果会直接影响文本自动分类的效率和稳定性。简单的说，特征提取就是从原始的多个自变量中提取出很少的解释变量，在尽量不损失分类准确率的前提下，将最能区分文档类别的特征项挑选出来。特征提取在多元分析领域，是很重要的一块内容。但是在文本自动分类的研究中，特征提取问题表现出新的特征，处理起来也更加复杂。首先是数据的稀疏问题，目前针对文本的研究，首先需要将文本转化成为可处理的结构化数据模式，较通用的方法是将文本变成高维的向量空间模型，这一过程中往往有大量的0出现。因为一个词语在某篇文档中出现，在其他文档中未必出现。尤其在中文语境中，这一问题更加突出。其次是稀疏降维，稀疏降维是指通过数学方法使得大部分解释变量系数变成0。一般来说，要处理的文档向量矩阵，变量数远远大于观测数。传统的特征提取技术，主要是基于矩阵分解、相关性和信息论的理论。基于矩阵分解的技术，从数学上更加完美，但是要求的矩阵计算难度比较高，此外，分解出的成分很难在实际问题中给出合理的解释。基于卡方法或者互信息等标准得到的特征容易解释，但很难从全局中给出最优的结论。所以期望找到一种方式可以将两种方式结合起来。一方面可以从理论上找到最优的解，另一方面希望提取出的特征保留可解释性。　　本文首先对目前不同领域学者对特征提取方法的研究进行了梳理，将各领域对这个问题的定义和分析进行了总结，（计算机领域的特征提取，统计领域的变量选择，文本分类领域的特征减少，文本聚类领域的稀疏降维等都属于这一框架），尝试去解释这些分析思路之间的相通点。希望能从一个统一的框架下，去看待和处理问题。在分析前面研究的基础上，本文提出了基于模型思想的最大差异化方法进行特征提取。最大差异方法，首先对原始文档词频矩阵进行变换，将问题的分析视角进行了重新的定义，把分类问题转化成聚类问题，对于属于某个特定文档类型的向量，把它看成是来自混合分布的一个样本群体，通过定义不同文档类型的组间差异，组内差异进行寻优，并本着使组间差异最大的思路进行分析。在求解过程中，通过对目标函数中的系数施加罚值进行约束，使算法快速收敛。该算法十分简单，可以大大节省运算上的各种消耗。经过实际数据检验，得到该方法对于提高算法的准确性有一定的提升。　　为了检验最大差异化方法的有效性，将该方法推广到不同类型的文本数据中，首先针对平面分类问题进行了探讨，证明了算法的有效性。此外将这种算法应用到了文本层次分类中，传统的文本分类算法没有考虑类别间的层次结构，而实际应用中，各个类别之间并不是独立的关系，他们之间往往可以组织成一个概念结构树的模式。这种组织结构可以方便用户的浏览、搜索及可视化操作，组织结构本事就是非常实用的信息。文本层次分类的问题主要有两种解决思路:一种是将问题分解为若干个小的分类问题，得到底层的分类结果之后，再逐一判断上一层次的类别。分解的方法在每一个节点处学习一个模型，可以利用多种算法建立得到这些分类器，利用这些分类器的综合结果，判断目标文本的类别归属。但是当基类数量比较多时，分类器将很庞大，分类效率和准确率都将受到影响。另一种是把层次分类问题看成是一个更一般的多分类、多标签的分类问题来进行求解。针对文本的层次分类中目前主要存在的分支节点分类器之间独立，且分析方法非全局性的特点，本文从自下而上的方法入手，分类时以基类信息作为分类标签，利用底层的信息来填补非独立性的因素。在克服偏度影响方面，本文采取了两步走的策略，不直接在每个节点训练分类器，而是通过从不同节点得到特征后，利用层次结构信息对其调整，最后将所提取的特征汇总到一起，使用分类算法进行统一分类，依次得到不同样本的分类结果。最后使用Opinion数据对方法进行测试，发现利用准确率，父类准确率，结构损失等评价指标对分类结果进行判断，结果有一定的优势。

其他文献

第五届江苏国际服装节主要活动介绍

期刊

江苏服装

国际旅游岛发展研究——以海南为例

2009年12月31日，国务院发布《关于推进海南国际旅游岛建设发展的若干意见》，宣布将在2020年将海南初步建成世界一流海岛休闲度假旅游胜地。海南国际旅游岛建设正式上升为国家战

学位

旅游业经营管理战略规划体制改革

经昆虫摄食dsRNA的RNAi的现状、挑战和前景

该文从挂篮荷载计算、施工流程、支座及临时固结施工、挂篮安装及试验、合拢段施工、模板制作安装、钢筋安装、混凝土的浇筑及养生、测量监控等方面人手,介绍了S226海滨大桥

期刊

情感教育在中学数学教学中的作用

古人云：“亲其师，信其道”。为此，教师必须树立威信，真正做到“学为人师，行为人范”。要在学生中树立威信，教师必须尊重、爱护、体贴学生，能够严以律己、以身作则、为人正直、诚实守信用和一颗乐于奉献的精神。由于受到学生的尊敬、爱戴与钦佩，学生将确信其教导的真实性和正确性。对于所传授的知识、认真领会；对于其谆谆教导，言听计从，师生的感情在教与学的过程中产生共鸣。此时，教师的赞扬会引起学生的内心愉快和深深的

期刊