基于SVM的文本分类算法研究

来源 :合肥工业大学 | 被引量 : 0次 | 上传用户:jackiesage
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
在互联网发达的信息化时代,海量文本信息的表示、存储、传输和利用已非常普遍,但有价值的信息获取却让人们陷入困境,导致“信息发达,知识贫乏”。如何在我们生存环境周围,从海量数据中挖掘出有潜在实际意义和价值的信息成为目前亟待解决的研究热点问题之一。在日常工作和生活中,我们接触到绝大多数数据信息都是以文本格式存在的,人们一直渴望能够找到一种高效的工具,能够依据文本信息主体的不同特征,对这些海量文本数据进行组织和管理。因此,对文本信息分类的研究就显得十分必要。多数文本分类算法普遍存在的问题是过多的文本特征会产生“维灾难”以及文本的训练和分类时间过长等。支持向量机(SVM)是由统计学理论发展而来,具备对特征相关性和稀疏性不敏感的特征,同时,具有很强的泛化能力,在处理高维数据中具有明显优势,在文本分类中具有很重要的研究价值。本文介绍了文本分类研究的发展及相关技术,结合文本分类性能评价指标对分类算法进行优劣比较,分析传统的二叉树SVM分类算法存在的缺陷。提出一种改进的二叉树SVM分类算法,该算法基本思想是越靠近根节点的子节点越先分割,按照自上而下、先易后难的流程,从而能够快速的构建带权二叉树,提高了文本分类的准确率,降低了训练和分类过程的时间开销。基于改进的二叉树SVM分类算法,通过MATLAB中调用Libsvm软件包,设计了一种改进的文本分类器模型。选取Reuters-21578数据集作为测试数据,并进行数据归一化处理;提出了核函数相关参数选优方法,在交叉验证算法的基础上,利用遗传算法进一步优化惩罚参数c和核函数参数g。对改进的文本分类器的准确率、训练和分类时间、召回率和F1值进行测试,并与三种传统的SVM文本分类方法进行比较。测试结果表明,本文所提出的文本分类方法在准确率、训练和分类时间、召回率和F1值方面均优于传统的文本分类方法。
其他文献
高分辨率SAR(Synthetic Aperture Radar)图像在卫星遥感、灾害监测等领域具有重要实际研究应用价值,但实际SAR成像分辨率往往难以满足应用需求。传统SAR图像超分辨率重建方法对模型和先验知识要求较高,重建效果往往不理想;无监督式生成对抗网络模型通过训练学习高低分辨率图像之间映射关系,减少先验知识依赖,重建图像效果明显优于传统方法,但博弈对抗式训练方法往往会使重建图像产生“伪影
互联网的迅速普及打破了信息传播的专业门槛,使得越来越多的人们可以通过社交媒体方便地获取信息、分享和表达观点,这极大的丰富了人们的日常生活。然而,由于社交媒体的用户数量巨大,出于各种目的捏造的虚假新闻层出不穷。再者,随着技术的进步,虚假新闻不再单纯的以文本的形式传播,更多是通过文本、图片和视频结合的方式进行扩散,极大地增强了虚假新闻的迷惑性,也使得以往仅仅依赖文本内容进行分析的虚假新闻检测方法不再适
随着人们对于自身安全以及公共安全的日益重视,视频监控系统遍布世界各地。海量的视频数据得以保存,如何快速地且智能化地分析和处理视频监控系统拍摄到的视频以及图像数据,是当下亟待解决的问题。作为智能监控系统中的一种不可或缺的技术,行人重识别(person Re-identification,Re-ID)受到了学术界的重视,其主要任务是在跨摄像头视域下匹配同一目标行人。近年来,随着深度学习技术的逐渐成熟,
遥感图像分割是理解遥感图像的基础,在防灾减灾、环境治理以及城市规划等领域有着重要作用。在过去,人们常常使用与图像分割有关的传统方法来处理遥感图像。传统的图像分割方法不管是在分割的精度还是分割的效率都是很低的。近年来,随着深度学习在计算机视觉领域的广泛应用,尤其卷积神经网络的在提取特征的显著优势,使得图像在分割的速度和精度上都得到了很大的提升。同时,基于深度学习的模型可以实现便捷的端到端的训练学习。
随着互联网,尤其是移动互联网的快速发展,人们在互联网上留下了的大量包含情感信息的评论。对海量用户评论进行文本情感分析,可以挖掘出人们对产品、服务的真实情绪、态度和意见。这些信息有利于消费者做出选择以及商家、服务平台对产品服务进行优化,尤其是用户评论中被消极评价的意见目标,简称消极情绪意见目标。抽取用户评论中消极情绪意见目标,可以帮助商家更有针对性的改进自身产品或服务中的问题,帮助消费者了解产品或服
领域适应方法由于能够有效克服传统机器学习中需获取大量标签和模型重新训练的问题,成为近年来的热门研究问题之一。领域适应方法利用源领域中潜在的信息为目标领域训练一个高置信度的分类器。自动编码器由于具有健壮的特征表示能力,成为领域适应任务中的常用模型之一,并取得了很好的效果。尽管基于自动编码器的领域适应方法具有较强的泛化能力,但在实际应用中仍存在一定的不足,如在训练新的特征空间时边缘降噪自动编码器(m
随着遥感技术的发展,遥感数据融合受到广泛关注。其中,高光谱与多光谱图像融合是一个研究热点。高光谱与多光谱图像融合的目的是获得一幅高空间分辨率高光谱图像,解决直接从传感器获取的高光谱图像空间分辨率低的问题。融合的任务是在保证较低光谱畸变的同时增强图像的空间信息。基于此,本文通过字典学习的方法对融合算法进行研究。本文在现有优秀算法的基础上,通过分析目前融合结果普遍存在的问题,提出两种基于字典学习的融合
随着互联网和大数据技术的发展,许多应用领域如新闻检索、淘宝购物和银行交易等产生海量的流式数据。不同于传统数据挖掘任务中采用的静态数据,这些数据流具有海量、快速、标签缺失、概念漂移或概念演化的特点,同时,由于存在多标记加剧类不平衡与类标签噪声问题,使得数据流的分类研究工作面临巨大挑战。因而如何从标签缺失的数据流中高效精准地挖掘潜在的、富有价值的信息成为数据流分类问题研究的重要任务之一。本文旨在充分利
近年来,我国国民经济发展很快,带动了我国电信行业稳定增长,目前正在研发5G关键技术和产品,需要打造系统、芯片、终端、仪表等完整产业链,重点推进骨干网、城域网、固定宽带接入网、移动宽带接入网、国际通信网和应用基础设施建设,要求升级改造国干网光缆线路,推进双向网、光纤化改造。因此,进入通信电缆人孔内布放光缆、光缆管路施工或障碍维修工作情况日益频繁。通信电缆人孔属于传输网络必经场所。类似于通信电缆人孔的
遥感卫星携带的传感器受到自身性能的约束,采集的单一遥感影像数据的无法兼得高空间分辨率和高时间分辨率的问题。遥感图像时空融合技术是当前解决此问题的重要手段之一,该技术通过结合多个卫星传感器的不同优势得到高时间、空间分辨率的影像数据。就融合数据而言,由于时间间隔较大,预测时刻图像相对于先验时刻图像局部区域发生了地物变化,造成基于先验时刻图像对在变化区域构建的高低分辨率先验失效。就稀疏表示方法而言,方法