论文部分内容阅读
大数据时代的来临,使得人们充分意识到数据的重要性,面对日益膨胀的海量数据,如何挖掘与整理这些数据成为大家关注的热点。文本分类技术作为大数据时代一门非常有价值的学科,能够很好的帮助研究者处理智能检索、信息过滤、网页分类、情感分析等领域问题。文本分类是利用计算机技术将给定的文本内容自动判定事先确定的若干文本类别中的一种或者多种的技术,主要包括文本表示模型、文本特征词提取方法和分类方法等技术。其中文本特征选择和分类方法直接影响文本分类的效果。支持向量机能够解决小样本、高维数分类问题,有很强的学习能力和泛化能力,是目前基于机器学习领域的文本分类研究的热点问题。利用支持向量机进行分类的过程中,影响分类性能的主要因素是核函数的核参数和惩罚参数的选择,针对粒子群算法等传统优化算法存在对参数优化容易陷入局部极值、训练时间较长等问题,提出了利用果蝇优化算法获取最佳模型参数。将分类准确率计算公式作为味道浓度判定函数,通过UCI标准数据集测试,与标准粒子群算法、遗传算法、蚁群算法比较,该优化方法具有训练时间短、全局搜索能力强和良好鲁棒性,能够获得较高的分类准确率。在研究总结文本特征提取方法和分类算法的基础上,选取搜狗互联网语料库中六个类别的2490篇TEXT文本,利用支持向量机分类算法,在全局特征维数为300、600、900维情况下对互信息、期望交叉熵等五种特征提取方法进行了实验比较,证明在特征维数900维时文本证据权算法分类性能稳定性最强。然后将果蝇算法优化后的支持向量机应用到文本分类问题上,在特征选择方法是文本证据权和全局特征维数900维条件下对KNN、SVM、PSO-SVM进行实验对比,分类结果评测指标中的宏平均查全率值、微平均的查全率值和查准率值是四种分类模型中最高的,证明FOA-SVM在文本分类建模精度高,泛化能力强。