基于XGBoost模型的文本多分类研究

来源 :网络安全技术与应用 | 被引量 : 3次 | 上传用户:w2119h
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
随着文本数据的大量涌现,对文本的分类需求也愈加强烈。然而多数学者都是直接使用查全率、查准率和F_β值来对文本分类结果进行评测,忽略了模型的拟合情况。本文以包含19个类别的中文分类语料作为数据集,基于两种特征提取方法、三种不同的机器学习算法进行文本分类,并且使用一种多分类对数损失函数来评判模型的拟合效果,进一步对分类结果使用准确率来进行评测。最终结果表明,基于XGBoost模型的模型拟合及分类效果均优于逻辑回归和Naive Bayes。
其他文献
20 0 2年 11月 14日 2 0时 10分 ,昆明市石林县亩竹箐乡过水沟联营煤矿发生一起特大瓦斯爆炸事故 ,造成 11人死亡 ,经济损失重大。事故发生后 ,成立了由省、市、县煤矿安全监
100年前辛亥革命的历史风云远去,而鉴赏一件件文物,追溯一段段历史,那时记忆又变得清晰,辛亥人物依然鲜活。黄兴题书的对联,给我们打开了一扇窗口,重温辛亥革命的故事,走近那
针对SAP (Systems Applications and Products in Data Processing,SAP)系统导出文件存在严重安全性问题的现状,现有的文件加密软件不能实现与SAP系统的无缝对接以及相应的透明加解密,提出一个系统模型并最终实现该系统模型。结合基于企业信息安全实际的需求,以透明加密的方式将SAP系统与Windows文件系统相结合,通过基于Windows文件系统的m
作为知识经济社会中新的财富创造形态,文化创意产业正日益引起国际社会的普遍关注,并成为某些发达国家(如英国、美国)国民经济的支柱产业和扩大对外贸易的主导产业,其在GDP中所
学位
工商银行武汉市唐家墩办事处地处偏僻,俗称武汉市的大西北。人们说:“在唐办工作,晴天一身灰,雨天一身泥”.党支部、主任室,把改善职工办公环境,改进职工生活福利条件,作为
请下载后查看,本文暂不支持在线获取查看简介。 Please download to view, this article does not support online access to view profile.
期刊
最近,我们到遭受特大洪涝灾害袭击的苏南地区的张家港、常熟、吴县、吴江等四县(市),实地考察了解了抗洪救灾的情况,所见所闻,令人感奋。张家港等四县(市)在特大洪涝的袭击
本文对网络资产探测领域中网站归属单位判定问题进行深入研究,提出了一种基于DBSCAN算法的互联网网站归属判定方法。该方法通过对输入的网站数据集进行特征提取,分类别对不同特征进行特征量化,生成网站特征数据集,通过DBSCAN聚类算法实现归属单位判定。通过实验验证该方法相较于传统的判定方法可以明显提升判定准确率。
1 什么是焦虑症rn焦虑症又称焦虑性神经症,是神经症这一大类疾病中最常见的一种,以焦虑情绪体验为主要特征.可分为慢性焦虑,即广泛性焦虑和急性焦虑,即惊恐发作两种形式.临床
期刊
K-means聚类高度敏感的初始化聚类中心选取一直是个难题。K值的选取能影响到实验结果。本文改进K-means聚类中心的初始化方法。首先,使用多个具有随机初始化的K均值聚类器构建一组基本聚类。然后,基于密度的思想,排除干扰的孤立点构建和聚集聚类来构建预聚类结果。获得初始的聚类中心集,然后将其用于最终K值聚类过程。最后证明了改进后方法的优越性。