基于正则化线性统计模型的文本分类研究

来源 :浙江大学 | 被引量 : 0次 | 上传用户：zwj10191021

【摘要】

：

文本是信息最基本、最常用的载体之一,随着信息技术的飞速发展,文本信息迅速膨胀。如何有效地组织和管理这些海量信息,并且能够从中快速、准确、全面地找到所需要的信息是当

【作者】

：

郑文斌

【出处】

：

浙江大学

【发表日期】

：

2012年期

【关键词】

：

文本分类正则化线性模型降维非负矩阵语义稀疏约束多标签极限学习机

下载到本地 , 更方便阅读

下载此文赞助VIP

声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架

论文部分内容阅读

文本是信息最基本、最常用的载体之一,随着信息技术的飞速发展,文本信息迅速膨胀。如何有效地组织和管理这些海量信息,并且能够从中快速、准确、全面地找到所需要的信息是当前信息科学与技术领域面临的一大挑战。文本分类技术是组织和管理文本信息的有力手段,也是信息检索和数据挖掘的重要基础。本文在分析文本分类相关研究的基础上,结合正则化线性统计模型的思想及其发展,从特征降维及表达、分类器的快速学习、以及降维和分类一致性模型等方面展开研究,完成了如下的一系列工作：1.提出了一种基于类别信息融合的非负矩阵分解的文本降维算法。针对传统的非负矩阵分解在实现降维时难以利用多标签类别信息的情况,通过类别编码并扩展维数的方式实现将类别信息融入矩阵分解,从而达到提高系统抗干扰能力并增强基的判别性的目的。之后通过对矩阵分解施加约束项驱使基向量正交归一化以减少其冗余信息。最后通过矩阵裁剪及变换实现了将文本数据从高维项空间映射到由一组非负基向量张成的低维语义子空间的降维目的。实验结果表明,该方法提高了基的判别能力,在维数降到很低情况下仍然获得很好的分类性能。2.提出了一种面向文本分类的非负稀疏语义编码算法。针对常见的降维方法产生的稠密表达与常识不符,以及通常的稀疏表达方法耗时且可能存在负元素(难以解释文本语义)等问题,本文开发了一个高效的字典构造算法,该字典包含的一组非负基向量可以张成一个语义子空间,在其中,所有的文本被表示为非负稀疏形式,这种编码方式符合一篇文档通常只包含不多的语义概念的实际情况。实验结果表明,该方法不仅达到了很好的分类性能,而且也获得了较好的可解释性。3.提出了一种基于极限学习机的文本分类算法。极限学习机是近年来快速发展的一种机器学习方法,其模型通常可以通过解析方式获得,避免了模型学习过程中常见的收敛性问题,从而达到很高的学习速度。本文针对极限学习机应用在高维稀疏文本数据上的一些问题,构建了一个正则化极限学习机模型,并给出其相应的解析解和理论证明以保证解的存在性。之后,根据模型的结构特点给出了相应的分类方法。实验结果表明,该方法在分类性能上优于BP神经网络,与支持向量机相当,但在学习和分类速度上均远超BP神经网络或支持向量机。4.提出了一种基于分组结构的正则化回归模型的文本分类方法。目前,基于lasso约束的回归模型可以较好地解决降维和分类不一致的问题。但文本特征的相关性常会导致这类模型过度稀疏(丢失较多的判别特征)。本文通过聚类方法获得相关特征的分组结构,并将该结构以正则化方式嵌入logistic回归模型,通过在组间及组内同时稀疏化实现在模型中保留重要的组并消除组内噪声的目的,最后在对应的模型上实现分类。实验结果表明,该方法在模型稀疏度和性能之间获得了很好的平衡。

其他文献

浅谈石拱桥病害与维修加固

石拱桥在我国的桥梁建筑中极为常见，由于受当时设计、施工技术等条件的限制，整体质量及荷载等级不高，且随着通行车辆轴载重量提高，特别是超载车辆运行，部分桥梁出现病害，因此需对石

期刊

石拱桥病害维修加固

新能源车牌识别算法研究

回回产卜爹仇贱回——回日E回。”。回祖一回“。回干肉果幻中 N_。NH lP7-ewwe--一”＄ MN。W;- __._——————》砧叫]们羽制作:陈恬’＃陈川个美食 Back to yield

学位

颜色形态学Radon矫正支持向量机梯度方向直方图

丽江特产包装设计与东巴文字研究——以丽江雪桃包装设计为例

东巴文字被誉为“活的象形文字”,目前对其的研究主要在东巴文字的字素,构形及与汉古文字的比较研究等方面;实际上东巴文字线条式的字形特点具有很高的艺术和可创作性,对需体

期刊

东巴文字包装设计形式美法则

新时期新闻媒体创新思想政治工作的路径思考

本文对传统新闻媒体和思想政治工作者对新闻媒体存在的问题和局限性,提出了路径。新闻媒体的思想政治工作就是要加强创新实践的价值模式和理念,建立更好的工作环境,完善相应

期刊

新时期新闻媒体思想政治工作路径创新

合作社资本报酬有限原则之立法探讨

资本报酬有限是合作社的核心原则,我国当前合作社普遍存在的资本报酬不限已经成为合作制危机的主要表现之一。其法律原因在于当前立法对资本报酬实际上缺乏限制,更没有建立保

期刊

合作社资本报酬有限原则立法

基于Java的Web数据库访问系统

介绍了通过浏览器访问数据库的几种方法，并针对其不足之处，开发出一个基于Java的Web数据库访问系统。

期刊

JAVAWEB数据库Java Web database

供给侧改革背景下促进科技创新的财政政策研究

科技创新需要财政政策支持,促进科技创新的财政政策研究是一项复杂的系统工程。本文以基本理论为指导,科学运用供给侧改革的思维方式和创新理念,分析了科技创新财政政策现状,

期刊

供给侧改革科技创新财政政策现状分析政策建议

高速公路环境保护及保护措施浅析

总结了高速公路施工，营运期环境保护工作的重点与措施，及高速公路的环境影响评价制度与方法。

期刊

高速公路环境保护环保措施highway environmental proteclion environmental protection measu

应用丙酸睾丸酮软膏治疗闭塞干燥性龟头炎

<正> 闭塞干燥性龟头炎(BXO)为一罕见病,通常缓慢起病,多发生于20～45岁。损害侵犯龟头、外尿道口、冠状沟,偶亦侵犯阴茎干。于外貌正常的组织上有斑驳状或羊皮纸样白色或象牙

期刊

丙酸睾丸酮软膏冠状沟尿道口干燥性龟头炎

海上搜救模拟器中近海溢油的实时仿真与可视化研究

海上搜救模拟器可用于搜救人员培训与模拟演习,最终达到检验各级搜救中心编制的海上搜救应急预案、检验搜救计划、完成海上搜救辅助决策以及搜救后评估的目的,提高海上人命救

学位

海上搜救模拟器潮流场溢油三维可视化

基于正则化线性统计模型的文本分类研究

与本文相关的学术论文