特征提取技术在文本自动分类领域的探索与应用

来源 :中国人民大学 | 被引量 : 0次 | 上传用户:yinhuali
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
特征提取是文本分类技术中的一项重要任务,特征提取的效果会直接影响文本自动分类的效率和稳定性。简单的说,特征提取就是从原始的多个自变量中提取出很少的解释变量,在尽量不损失分类准确率的前提下,将最能区分文档类别的特征项挑选出来。特征提取在多元分析领域,是很重要的一块内容。但是在文本自动分类的研究中,特征提取问题表现出新的特征,处理起来也更加复杂。首先是数据的稀疏问题,目前针对文本的研究,首先需要将文本转化成为可处理的结构化数据模式,较通用的方法是将文本变成高维的向量空间模型,这一过程中往往有大量的0出现。因为一个词语在某篇文档中出现,在其他文档中未必出现。尤其在中文语境中,这一问题更加突出。其次是稀疏降维,稀疏降维是指通过数学方法使得大部分解释变量系数变成0。一般来说,要处理的文档向量矩阵,变量数远远大于观测数。传统的特征提取技术,主要是基于矩阵分解、相关性和信息论的理论。基于矩阵分解的技术,从数学上更加完美,但是要求的矩阵计算难度比较高,此外,分解出的成分很难在实际问题中给出合理的解释。基于卡方法或者互信息等标准得到的特征容易解释,但很难从全局中给出最优的结论。所以期望找到一种方式可以将两种方式结合起来。一方面可以从理论上找到最优的解,另一方面希望提取出的特征保留可解释性。  本文首先对目前不同领域学者对特征提取方法的研究进行了梳理,将各领域对这个问题的定义和分析进行了总结,(计算机领域的特征提取,统计领域的变量选择,文本分类领域的特征减少,文本聚类领域的稀疏降维等都属于这一框架),尝试去解释这些分析思路之间的相通点。希望能从一个统一的框架下,去看待和处理问题。在分析前面研究的基础上,本文提出了基于模型思想的最大差异化方法进行特征提取。最大差异方法,首先对原始文档词频矩阵进行变换,将问题的分析视角进行了重新的定义,把分类问题转化成聚类问题,对于属于某个特定文档类型的向量,把它看成是来自混合分布的一个样本群体,通过定义不同文档类型的组间差异,组内差异进行寻优,并本着使组间差异最大的思路进行分析。在求解过程中,通过对目标函数中的系数施加罚值进行约束,使算法快速收敛。该算法十分简单,可以大大节省运算上的各种消耗。经过实际数据检验,得到该方法对于提高算法的准确性有一定的提升。  为了检验最大差异化方法的有效性,将该方法推广到不同类型的文本数据中,首先针对平面分类问题进行了探讨,证明了算法的有效性。此外将这种算法应用到了文本层次分类中,传统的文本分类算法没有考虑类别间的层次结构,而实际应用中,各个类别之间并不是独立的关系,他们之间往往可以组织成一个概念结构树的模式。这种组织结构可以方便用户的浏览、搜索及可视化操作,组织结构本事就是非常实用的信息。文本层次分类的问题主要有两种解决思路:一种是将问题分解为若干个小的分类问题,得到底层的分类结果之后,再逐一判断上一层次的类别。分解的方法在每一个节点处学习一个模型,可以利用多种算法建立得到这些分类器,利用这些分类器的综合结果,判断目标文本的类别归属。但是当基类数量比较多时,分类器将很庞大,分类效率和准确率都将受到影响。另一种是把层次分类问题看成是一个更一般的多分类、多标签的分类问题来进行求解。针对文本的层次分类中目前主要存在的分支节点分类器之间独立,且分析方法非全局性的特点,本文从自下而上的方法入手,分类时以基类信息作为分类标签,利用底层的信息来填补非独立性的因素。在克服偏度影响方面,本文采取了两步走的策略,不直接在每个节点训练分类器,而是通过从不同节点得到特征后,利用层次结构信息对其调整,最后将所提取的特征汇总到一起,使用分类算法进行统一分类,依次得到不同样本的分类结果。最后使用Opinion数据对方法进行测试,发现利用准确率,父类准确率,结构损失等评价指标对分类结果进行判断,结果有一定的优势。
其他文献
期刊
2009年12月31日,国务院发布《关于推进海南国际旅游岛建设发展的若干意见》,宣布将在2020年将海南初步建成世界一流海岛休闲度假旅游胜地。海南国际旅游岛建设正式上升为国家战
该文从挂篮荷载计算、施工流程、支座及临时固结施工、挂篮安装及试验、合拢段施工、模板制作安装、钢筋安装、混凝土的浇筑及养生、测量监控等方面人手,介绍了S226海滨大桥
期刊
古人云:“亲其师,信其道”。为此,教师必须树立威信,真正做到“学为人师,行为人范”。要在学生中树立威信,教师必须尊重、爱护、体贴学生,能够严以律己、以身作则、为人正直、诚实守信用和一颗乐于奉献的精神。由于受到学生的尊敬、爱戴与钦佩,学生将确信其教导的真实性和正确性。对于所传授的知识、认真领会;对于其谆谆教导,言听计从,师生的感情在教与学的过程中产生共鸣。此时,教师的赞扬会引起学生的内心愉快和深深的
目前国内的医疗制度改革不断完善,国内的医疗机构也随着社会经济发展不断增多。由于现代科技不断持续地发展,为了对医疗水平以及服务质量的提高,大型医院对相关医疗设备的需求量
该文从挂篮荷载计算、施工流程、支座及临时固结施工、挂篮安装及试验、合拢段施工、模板制作安装、钢筋安装、混凝土的浇筑及养生、测量监控等方面人手,介绍了S226海滨大桥
期刊
该文从挂篮荷载计算、施工流程、支座及临时固结施工、挂篮安装及试验、合拢段施工、模板制作安装、钢筋安装、混凝土的浇筑及养生、测量监控等方面人手,介绍了S226海滨大桥
结合H.264编码标准对X264编码器进行了分析与研究,目的在于提高编码速度,增强X264的实时性.在重点分析了宏块间数据依赖关系的情况下,针对帧间宏块级多线程并行编码的特点,本
田径运动有着其他运动无法替代的优势:它有利于发展学生力量、耐力、速度、灵敏、柔韧等身体素质,有利于学生身体机能的发展,有利于培养中学生的勇敢顽强的意志品质,满足现代
本文通过对荣华二采区10
期刊