论文部分内容阅读
支持向量机算法是一种新的统计学习算法,在数据挖掘领域被广泛用来进行分类和预测,其快速、高效和较好的伸缩性使其适合运用在海量情报数据挖掘中。
本文通过对传统支持向量机的深入研究,扩展了支持向量机的功能,使其能够进行分类概率预测,在此基础上设计并实现了一个情报数据分类挖掘原型系统。主要研究内容包括:⑴预处理。对大量不同来源的、含有噪声的情报数据,通过数据装载、数据格式转换、属性子集选择、数据归一化和数据拆分等步骤来获得高质量的挖掘数据源。⑵模型训练。以序列最小最优化训练算法的支持向量机为基础,通过扩展其功能使其能够进行分类概率预测,得到分类概率预测模型。⑶分类预测。利用分类概率预测模型对测试数据进行预测,不仅能够给出分类预测的类标记,而且能够给出所有类别的概率信息。结果表明,该系统对情报数据能够取得比较好的概率预测结果,具有一定的实用价值。