基于类别重组与模型融合的文本分类算法改进研究

来源 :中国科学院大学(中国科学院人工智能学院) | 被引量 : 1次 | 上传用户:liulang75281899
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
多类别文本分类是自然语言处理任务中的一项基础任务,文本分类算法效果的提升,也会使自然语言处理领域诸多其他任务的处理效果得到提升。目前在学术界诞生了种类众多、性质各异的文本分类算法,但由于这些算法各有各的优势与不足,在实际使用中往往需要使用多种算法进行某种形式的融合,进而实现优势互补,以满足工程中对于分类算法的需求。文本分类任务中,由于人工构建的分类体系往往受服务需求方与数据标注人员的主观因素影响较大,导致分类体系中的不同类别对于文本分类算法来说可分性参差不齐。在目前的单模型机器学习分类方法中,线性分类方法的训练和分类都极为快速,适合用于大规模文本数据的训练与分类,但分类效果不够理想;而神经网络类分类方法虽然训练代价较大,但分类效果比较理想。若将线性分类方法与非线性分类方法进行融合,让线性分类处理线性可分性较高的若干类别的分类,非线性分类处理线性可分性较差的若干类别的分类,预计将得到较好的分类精度和训练速度。基于以上背景,采用模型融合的方法提升分类器的整体性能是一个合理的选择。由此本文提出基于类别重组与模型融合的文本分类方法。本文主要工作如下:(1)设计实现了一种类别重组算法。类别重组算法将使用线性分类器进行分类时互相之间误分类率较高的若干类别合并为一个新的类别,而误分类率较低的若干类别保持不变。将上述思路应用于原始类别体系,得到重组后的新的类别体系,且新类别之间将是适合于进行线性分类的。本文在新类别体系下训练与测试本文使用到的线性分类器,得到了比在原始类别体系下所训练的模型更好的分类效果。(2)设计实现了一种分类模型融合方法。基于模型融合策略,将线性与非线性模型进行融合,线性分类算法负责类别重组后所得类别体系下的分类,而神经网络分类方法负责类别重组后所得新类别内部的分类。对于每一个重组得到的新类别,将对应一个非线性模型,并使用此非线性模型对新类别中的多个类进行分类。经过实验验证,此方法能够以接近于线性分类模型的训练代价下,得到比线性分类模型更好的分类效果,进而对文本分类模型整体性能做出了一定的改进。(3)设计实现了一个分类系统。结合上面工作成果,设计实现一个分类系统,在实际工程中初步得到应用。
其他文献
移动智能设备已经成为人们生活中不可或缺的部分。虽然移动设备的硬件一直在高速发展,但是依然不能满足日益增长的性能和低功耗需求。为了解决上述问题,一种被广泛认可的方案
随着区块链中区块的快速增长,区块链节点面临由于大量区块产生带来的大容量存储问题,优化区块链节点的存储是非常必要的。本文针对传统分片存储方案中存在的容量和安全问题,
伴随科学技术的迅猛发展,现代工业进入到前所未有的“高级发展阶段”。社会对工业产品现代制造业的要求也越来越高。在这个过程当中三维实体数字化检测技术也随之出现,实时、
随着数学课程改革的不断深入,对于课堂教学中的过程性评价越来越重视,书面化的指导在最新版数学课程标准中有所体现,与之相关的研究也成为目前的一个趋势,而其中教师课堂教学
目的:反应模式可以很好地体现出初中生的心理健康状况,从而成为了心理学界关注话题。有研究表明反馈方式和自尊会影响初中生经历失败后的反应模式。不同归因的反馈方式和不同
本文的研究目的是探索制备具有高表面增强拉曼散射(SERS)能力的贵金属(金、银、铜)水热碳基复合材料的实验方法,并研究它们的SERS效应和增强机理。内容主要包括以下三个部分:
唇语识别是指利用计算机视觉技术根据说话人讲话过程中唇部变化识别出说话内容的技术。要实现准确的唇语识别,需要克服许多挑战,包括说话过程中说话人姿态的变化、所说内容的
随着数字图像处理技术的飞速发展及各种智能设备的广泛使用,大规模图像/视频数据库的应用变得越来越普遍。与此同时,出现了许多功能强大且易于操作的图像处理软件,使得即使是
随着互联网的飞速发展,自然语言处理渐渐走在科技前沿且备受研究者青睐。自然语言处理旨在增强人工智能与人之间的沟通,包括了信息抽取、信息检索、机器翻译等多项技术任务,
目的探讨海昆肾喜胶囊对早期期糖尿病肾脏疾病患者尿蛋白的影响。方法选择2010年1月~2012年1月在我院肾内科确诊的临床期糖尿病肾脏疾病(Mogensen分期Ⅲ期)患者162例,随机分
会议