基于SVM算法的文本分类的研究

来源 :吉林大学 | 被引量 : 0次 | 上传用户:nev0618
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
随着社会科技的进步,各个领域对数据的关注度与日俱增,与此同时,科研人员对数据的敏感性和对数据的应用能力也不断增强,这一切使人们进入了大数据时代。但是在互联网中流动的不只有人们需要的可用资源,还包括大量干扰正常工作、误导大众的危害内容。在可用资源里,数据也是杂乱无章的,这不仅造成网络信息过载,也给人们带来了低效率的感受。因此,对数据进行系统的处理、精准的分类,使它们成为有特定用途的可用信息是科研人员的追求目标。本文在撰写的前期,先就当前文本分类的研究成果进行了一定程度的学习,这其中包括对国内和国外两部分成果的研究;然后,着重学习和分析了如何用SVM方法解决文本二分类问题,进而引申到多分类问题。SVM——支持向量机,属于机器学习中的一种方法,是以统计学习理论作为基础的,在文本分类、图像分类等许多领域都体现了很好的性能。在使用分类器之前,需要准备可靠的数据作为输入,以保证分类的高效性。本文通过学习与分析,决定在文本表示阶段做出一定的改变。文本在成为计算机能够识别的形式时,需要对自身的表现形式做某种转化。转化的方式有很多,可以把词转化成向量,或者最简单的二进制格式等。综合词语的语义和出现频率两方面因素,本文决定使用doc2vec算法作为文本表示方法。为此,本文的整体撰写框架如下:首先,对文本分类问题的研究现状和整体发展过程进行学习后,对本文的实验目的和想法做了全面的分析,明确了理论框架和实验流程。主要包括:对信息进行预处理,其分为文本的特征表示和特征提取两部分;接着对几种经典的分类器算法进行介绍,着重分析了支持向量机的基本原理。然后,介绍深度学习的主要内容和word2vec算法,以及在此算法基础上发展而来的doc2vec算法,对词向量模型进行比较,确定实验所使用的模型。最后,将实验需要的理论基础和思想介绍完毕后,将理论与实践结合,设计一个基于SVM的中文新闻文本分类模型。该模型的主要内容是:以doc2vec的输出作为多核SVM的输入,利用实验语料集,计算多个和矩阵,最后使用spg-gmkl训练并分类,实验结果可以证明多核SVM的优势与实用性。
其他文献
有序聚类分析法是水文学中识别突变点的有效方法,但该法只考虑了同类之间的离差较小原则,忽略了类与类之间的离差较大原则。基于此,提出了改进的有序聚类分析法,改进法同时考
<正>当地的哪个餐馆服务最好?口味最佳?曾几何时,人们对于这些实用性信息的需求大多通过浏览市民类报纸、传统网站的美食健康页面来满足;而如今,更多的人通过查询大众点评网
<正>山清水秀、风景迷人的斯图加特是德国巴登—符腾堡州的首府,欧洲经济最活跃的心脏城市,也是德国贸易展览最频繁的大都市之一。面积207平方千米,人口60多万。满栽葡萄的山
<正> 据“1994,12(46):11”报道,日本三井集团与中方在上海共建树脂专用料生产企业。新建的企业名为“上海三井复合塑料有限公司”。该企业除三井物产外还有东丽公司、三井石
本文就新浪微博微话题的议程设置功能进行内容分析。从议题设置的数量、分布、重大议题设置角度和传播效果反馈等几个方面展开,分析新浪微博议程设置的特点及效果。文章认为,
就当前土钉墙+排桩在明挖隧道深基坑支护中的几个问题,开展了有针对性的研究。采用理论分析和数值计算方法,结合工程实例,深入探讨了土钉墙坡比i,排桩桩径-间距(D-S),以及设
传统文化在设计上的运用一直是设计师们关注的话题。甲骨文是我国目前发现的最早的最成熟的文字。甲骨文为包装设计中的图形构成形式、内包装的浮雕装饰及其形象的转换、材料
文化比较是当下专家学者们常用的一类研究方法,从这个角度出发分析当前高校英语教学的策略具有十分重要的现实意义,高等学校英语教学呈现出默会性、融通性、应用性的价值特性
随着我国电视业竞争的日益激烈,电视主持人品牌的推广和营销也成为电视业一个新的研究课题。由电视台从栏目设置、媒体宣传、公关部门推介、主持人包装等多方面入手,打造明星
<正>静水深流中,汇通达要用市场化的方式推动新农村建设。经济学家科斯曾在《变革中国》中,把以民间力量为主导的改革,定义为"边缘革命"。以农村和8亿农民为目标市场的汇通达