论文部分内容阅读
随着通信技术和计算机技术、尤其是Internet的飞速发展,各种各样的信息成几何级数增长,作为传统的信息载体,文本信息更是如此。为了能在海量纷杂的文本信息中及时准确地获得有效的知识和信息,文本表示技术以及文本自动分类技术受到了广泛的关注。文本分类对于提高网上信息检索的效果和效率很有帮助,是推进个性化服务,改进信息获取模式的重要方面,也是内容安全的基础。因此好的分类性能是关注的焦点。基于支持向量机(SVM)的文本分类算法,更是成为当前的一个研究热点。本文首先研究分析了文本分类器的总体模型和文本表示及文本分类的关键技术。在特征提取部分,结合了基于文档频率(DF ),χ2分布(CHI ),信息增益(IG)以及互信息(MI )等几种不同的特征选择方法,通过实验结果的比较,证明在本文的系统中基于IG的特征选择方法要优于其他方法。在文本表示部分,采用了TFIDF权重计算方法,实现了向量空间模型。在多类分类算法中,采用一对余类方法实现多类分类问题,分类结果较为理想。本文重点对统计学习理论进行了研究,深入探讨了建立在该理论基础上的支持向量机算法,阐述了支持向量机研究和应用现状,以及所面临的问题。并且作者就目前支持向量机的训练算法、分类算法、求解大型问题的算法等热点问题进行了分析和讨论,针对海量纷杂的文本分类存在的瓶颈问题即计算时间和占用内存,本文结合SVMQP思想提出了一种并行化的SVM分类算法—PCSMO-KNN算法。该算法把海量文本分到多个并行的从处理器上用CSMO训练,再用KNN算法在特征空间对所有SV进行加权回归。该算法充分利用了组合分类器的优势使大规模文本分类时训练速度和分类精度得到较好的折中。实验证明,该算法大大提高了大规模文本分类的训练速度和精度,有效地解决了SV较多时求解SVM分类器的瓶颈问题。此外,在对中文文本分类关键技术和支持向量机变形算法的的研究基础上,本文作者设计了一个基于改进算法的中文文本分类系统,并在一定条件下对该系统进行了实验仿真,通过训练集和测试集对分类器进行训练和测试,取得了较好的分类效果,在一定程度上解决了基于SVM的大规模文本分类的瓶颈问题。