基于FOA-SVM的中文文本分类的研究

来源 :河北工业大学 | 被引量 : 3次 | 上传用户:q329118794
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
大数据时代的来临,使得人们充分意识到数据的重要性,面对日益膨胀的海量数据,如何挖掘与整理这些数据成为大家关注的热点。文本分类技术作为大数据时代一门非常有价值的学科,能够很好的帮助研究者处理智能检索、信息过滤、网页分类、情感分析等领域问题。文本分类是利用计算机技术将给定的文本内容自动判定事先确定的若干文本类别中的一种或者多种的技术,主要包括文本表示模型、文本特征词提取方法和分类方法等技术。其中文本特征选择和分类方法直接影响文本分类的效果。支持向量机能够解决小样本、高维数分类问题,有很强的学习能力和泛化能力,是目前基于机器学习领域的文本分类研究的热点问题。利用支持向量机进行分类的过程中,影响分类性能的主要因素是核函数的核参数和惩罚参数的选择,针对粒子群算法等传统优化算法存在对参数优化容易陷入局部极值、训练时间较长等问题,提出了利用果蝇优化算法获取最佳模型参数。将分类准确率计算公式作为味道浓度判定函数,通过UCI标准数据集测试,与标准粒子群算法、遗传算法、蚁群算法比较,该优化方法具有训练时间短、全局搜索能力强和良好鲁棒性,能够获得较高的分类准确率。在研究总结文本特征提取方法和分类算法的基础上,选取搜狗互联网语料库中六个类别的2490篇TEXT文本,利用支持向量机分类算法,在全局特征维数为300、600、900维情况下对互信息、期望交叉熵等五种特征提取方法进行了实验比较,证明在特征维数900维时文本证据权算法分类性能稳定性最强。然后将果蝇算法优化后的支持向量机应用到文本分类问题上,在特征选择方法是文本证据权和全局特征维数900维条件下对KNN、SVM、PSO-SVM进行实验对比,分类结果评测指标中的宏平均查全率值、微平均的查全率值和查准率值是四种分类模型中最高的,证明FOA-SVM在文本分类建模精度高,泛化能力强。
其他文献
本文针对P2P系统中的匿名性进行研究,为P2P系统的底层设计并实现了匿名结构,该结构包括两个部分:匿名发布和匿名读.在该结构中,存储节点可以被匿名更新.本文实现匿名的思想是
交通运输业作为国民经济发展的支柱产业以及我国目前交通运输业的发展相对落后于国民经济发展需求的现状,对研究发展能有效解决交通问题的交通模拟软件有着非常迫切的需求。微
随着计算机技术、移动通信技术以及传感器网络技术的飞速发展,远程监控技术的应用也处在不断革新之中。目前,在面向传感器监控的远程监控系统中,由于传感器设备类型多样、异构,格
伴随着网络技术(特别是Internet 技术)与多媒体技术的飞速发展,数字信息的传输与利用日益变得频繁与广泛.鉴于数字信息极易被无限制任意编辑、复制与散布,从而导致数字媒体作
本文阐述了基于指标的全面浮动通用网络报表系统的设计与开发。该系统以行业计划、统计财务等报表管理要求为准则,提供灵活多样的任务布置和数据上报功能,集单户和分户数据管
近年来,视频跟踪技术在许多行业中获得应用,影响也日益扩大,引起众多学者对其关注。视频跟踪系统在内容检索、智能监控、感知接口、运动分析等领域都有应用。基于特征的跟踪是视
蜜罐系统是应用于计算机网络安全领域的信息系统资源,它的价值体现在被扫描、攻击和攻陷,通过蜜罐可以获取攻击者和攻击技术的相关信息,也可以用来吸引和分散攻击者的注意力,
由于IPv4在设计之初在资源限制上较为保守,所以现在Internet的爆炸性增长引发了网络地址不足的危机,按目前入网主机的增长速度预计到2006年左右IP地址将被耗尽;IPv6采用了128位
随着计算机网络通信和多媒体技术的飞速发展,网络数字视频监控系统得到了越来越广泛的应用。网络数字视频监控系统的关键技术——视频传输技术也成为了人们研究的热点。本学位
本文主要目的设计与实现蠕虫的主动遏制系统框架,解决大规模网络安全问题。本文主要研究内容是分析蠕虫的攻击方法、实现通用的远程缓冲区溢出的检测方法,借鉴传统的蠕