基于支持向量机的大规模文本分类研究与设计

来源 :山东师范大学 | 被引量 : 0次 | 上传用户:holy1987
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
随着通信技术和计算机技术、尤其是Internet的飞速发展,各种各样的信息成几何级数增长,作为传统的信息载体,文本信息更是如此。为了能在海量纷杂的文本信息中及时准确地获得有效的知识和信息,文本表示技术以及文本自动分类技术受到了广泛的关注。文本分类对于提高网上信息检索的效果和效率很有帮助,是推进个性化服务,改进信息获取模式的重要方面,也是内容安全的基础。因此好的分类性能是关注的焦点。基于支持向量机(SVM)的文本分类算法,更是成为当前的一个研究热点。本文首先研究分析了文本分类器的总体模型和文本表示及文本分类的关键技术。在特征提取部分,结合了基于文档频率(DF ),χ2分布(CHI ),信息增益(IG)以及互信息(MI )等几种不同的特征选择方法,通过实验结果的比较,证明在本文的系统中基于IG的特征选择方法要优于其他方法。在文本表示部分,采用了TFIDF权重计算方法,实现了向量空间模型。在多类分类算法中,采用一对余类方法实现多类分类问题,分类结果较为理想。本文重点对统计学习理论进行了研究,深入探讨了建立在该理论基础上的支持向量机算法,阐述了支持向量机研究和应用现状,以及所面临的问题。并且作者就目前支持向量机的训练算法、分类算法、求解大型问题的算法等热点问题进行了分析和讨论,针对海量纷杂的文本分类存在的瓶颈问题即计算时间和占用内存,本文结合SVMQP思想提出了一种并行化的SVM分类算法—PCSMO-KNN算法。该算法把海量文本分到多个并行的从处理器上用CSMO训练,再用KNN算法在特征空间对所有SV进行加权回归。该算法充分利用了组合分类器的优势使大规模文本分类时训练速度和分类精度得到较好的折中。实验证明,该算法大大提高了大规模文本分类的训练速度和精度,有效地解决了SV较多时求解SVM分类器的瓶颈问题。此外,在对中文文本分类关键技术和支持向量机变形算法的的研究基础上,本文作者设计了一个基于改进算法的中文文本分类系统,并在一定条件下对该系统进行了实验仿真,通过训练集和测试集对分类器进行训练和测试,取得了较好的分类效果,在一定程度上解决了基于SVM的大规模文本分类的瓶颈问题。
其他文献
随着数码照相机、计算机、平板、智能手机等设备的全面普及,在我们的日常生活和工作中常常与大量的多媒体影像、图像打交道,时常需要对其进行抠图处理,人们对于抠图方式的简
蛋白质的生物功能是由它们的空间折叠结构决定的,理解蛋白质的折叠过程是生物信息学领域中极具挑战性的问题之一。近年来,许多研究者从事蛋白质简化模型的研究,这些模型基于
本文对基于旋转平台的物体表面三维重建方法进行了研究。我们的测量装置由一个旋转平台和一台固定的摄像机组成,物体可随旋转平台旋转运动,摄像机固定不动。对该系统进行研究,具
入侵检测作为一种积极主动的安全防护技术,它不仅能检测未经授权的对象对系统的入侵,而且也能监视授权对象对系统资源的非法使用。随着因特网应用的日益普及,基于网络的入侵
随着信息技术的不断发展,软件复用和软件构件化越来越受到业界的广泛关注。当前的构件技术还是存在许多需要进一步改善的地方,譬如传统的构件描述与检索方式,由于缺乏丰富的构件
支持向量机(Support Vector Machine, SVM)作为近年来发展迅速的一种新型的、基于机器学习的一种模式识别算法,具有很好的推广能力,使其应用于多个不同的领域中。目前,SVM分
随着搜索引擎、社交网络以及聊天机器人等应用场景的发展和普及,短文本相似度计算在信息检索、文本分类、智能问答和机器翻译等研究和应用中发挥着重要的作用。传统的文本向
随着Semantic Web研究和Web2.0应用的发展,RDF数据被大量地发布。W3C发布的SPARQL查询语言和数据访问协议,担负着统一RDF查询和数据访问标准的重任。 课题旨在设计实现一个
采用转炉的方式是现在主流的炼钢手段,在转炉炼钢过程中,化渣是其中的一个关键过程。自动炼钢要求利用计算机技术对化渣状态准确、及时判定,作为控制系统实时调控的依据,使得炼钢
自九十年代产生以来,数据挖掘技术的研究已经比较深入,研究范围涉及到关联分析、分类分析、聚类分析、趋势分析等多个方面。在常见的非结构化数据如文本、图像、视频中,文本数据