文本挖掘分类算法的比较研究

来源 :科学与财富 | 被引量 : 0次 | 上传用户:cnmSymbian
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
  摘要:本文借助R软件,采用来自某新闻媒体官方微信公众号中16个类别的中文文本数据,对所发布内容进行分类。首先对文本进行预处理,主要是进行分词和去除停用词,并加入自定义词典,然后采用TF-IDF权重法提取文本特征,按照训练集与测试集10:3的比例,用支持向量机(SVM),随机森林(RF),Boosting,最大似然的广义线性回归(GLMNET),最大熵(MAXENT)这5种分类算法,对选取的训练文本进行训练得到不同的分类模型,进而对测试文本进行自动分类,并采用5折交叉验证法比较不同算法的分类性能。结果显示Boos~ng分类算法对于该文本的分类准确率最高。
  关键词:TF-IDF;支持向量机;随机森林;Boosting;分类模型
  一、引言
  文本分类是指依据文本的内容,根据某种自动分类算法按照一定分类体系或标准,对大量文本进行判断并归类为预先定义好的一个或者多个类别的过程。本文根据微信公众号发布内容,建立分类模型进行文本自动分类,主要采用支持向量机(SVM)、随机森林、Boosting、最大似然的广义线性回归、最大熵这5种分类技术。
  二、描述性统计
  從该新闻媒体官方微信公众号的发布内容及其所属类别来看,共发布了780条新闻,其中社会类新闻达到了352条,生活服务类新闻共有118条,健康类新闻有65条。因此,该新闻媒体比较关注有关社会民生、身体健康等方面的内容,较适合普通民众阅读。
  词云图是一种信息文本可视化技术,可过滤掉大量的庞杂文本信息,容易看出哪些类型的关键词出现频率最高,从而更容易对其进行分类。以下是对该新闻媒体的几种具有代表性的新闻类型分别作出词云图,可以观察到在某类型新闻中哪些词出现的频率较高,从而更容易对一则新的新闻进行分类。
  图1-图5分别展示出的是社会类新闻、生活服务类新闻、房产类新闻、财经类新闻、环保类新闻。但若仅仅通过观察来判断一条信息属于哪一类型,不仅工作量大且正确率有待考究,因此需要通过文本分类算法来规范化新闻的分类。由于篇幅受限未给出词云图。
  三、实证分析
  3.1文本集整合
  在提取文本特征之前,要对文本做预处理,主要是对文本进行分词和去除停用词处理。去除停用词一般通过导入中文停用词表来实现,本文采用的中文停用词表含有4545个停用词。去除这些与主题无关的词以后,按照实际需求选取权重最高的几个词汇来代表该文本的核心内容。此外,在文本信息处理过程中,通过从搜狗细胞词库中选择自定义词典将文本中出现的特殊词加进去,有助于识别文本,提高分类的准确率。
  3.2提取特征文本
  选取能够反映文本类别的文本特征。各个词汇对文本分类的影响是不同的,一些通用的或者各个类别中都普遍存在的词汇对文本分类的影响很小,去除掉这些没有影响力的词汇,筛选出代表该类的特征项集合。特征提取是文本分类中的关键问题,它对分类精确率有很大影响。文本特征提取有很多方法,其中最常用的方法是通过词频选择特征。通过词频计算出权重。采用TF-IDF(词频率-逆文档频率)法计算权重。
  3.3利用训练集训练模型
  本文选用某新闻媒体官方微信公众号的发布内容为研究文本,文本类别为时政、社会、头条新闻、视频、生活服务、财经、科技、健康、房产、环保等16类。取600篇作为训练文本,其余180篇作为测试文本。在模型训练时,对训练文本进行词频统计,得到词频统计矩阵,构造不同算法对应的分类器模型。分别是支持向量机(SVM),随机森林(RF),Boosting,最大似然的广义线性回归(GLMNET),最大熵(MAXENT)这5种分类算法。
  3.4利用测试集对模型测试
  对于选取的180篇测试文本,根据不同的分类器模型,对测试文本进行自动分类,以支持向量机和最大熵算法为例,得到的分类结果见表1。(蓝字标注的表示分错的类别)
  进一步,针对这两种算法的180篇测试文本分类结果及各个类别正确分类和错误分类的文本数。对应计算出各类别的正确率。
  在支持向量机SVM算法下,社会和活动这两个类别分类的正确率相对较高,分别为81%,68%。在最大熵MAXENT算法下,社会、时政、活动、生活服务这四个类别分类的正确率分别为63%,67%,78%,66%。
  3.5分类性能的比较
  针对五种分类算法,采用5折交叉验证,得到分类准确率Accuracy。支持向量机(SVM)、随机森林(RF)、Boosting、最大似然的广义线性回归(GLMNET)、最大熵(MAXENT)这五种算法的5折交叉验证准确率分别为0.573、0.667、0.692、0.608、0.574。这五种分类算法的准确率都基本上在60%以上,其中Boosting的准确率最高,近70%。Boosting算法对于此文本分类是分类性能最好的算法。
  四、结论
  由实证部分交叉验证结果得到Boosting算法是此文本分类中性能最好的分类算法。Boosting算法具有速度快、简单、编程容易、适应性强和精度高的特点,并在进行分类的同时能够进行特征选取,可以提高弱分類算法的识别率。
其他文献
摘要:随着社会经济与科技水平的不断发展,我国的机械制造业也在不断的进步和发展,同时机械制造业存在的问题也日益突出,而传统的机械制造模式已经不能适应现代社会的发展。因此,本文将从现代机械制造工艺与精密加工技术的几个方面进行分析和探讨。  关键词:现代机械、制造工艺、加工技术  现代机械制造工艺在我国的发展中起到尤为重要的作用,在我国建设过程中,机械制造工艺是需要现代化机械设备进行生产的工艺技术,提高
期刊
摘要:21世纪,是一个信息化快速发展的时代,各企业单位在档案管理方面,也进行了全面的革新和优化,逐渐将传统纸质档案管理模式演变成电子化信息管理模式,不仅促进了档案信息的共享,也有效提高了档案管理质量和管理效率。但是,随着网络信息系统的广泛运用,各种网络风险也开始应运而生,因此,为了确保电子档案信息的安全,相关单位,必须大力引进各种信息安全管理技术,这样才能彻底清除电子档案信息管理系统中存在的安全隐
期刊
摘要:近年来,伴随着社会的不断发展,环卫档案工作得到了越来越多人的重视,可以说档案工作也发生了很大的变化,尤其是信息时代,不但给人们和社会带来了好处和方便,也为环卫档案工作提供了更多的管理方式,促进了环卫档案工作的管理,也给所有的档案管理工作提供了方便。本文首先介绍了当前环卫档案管理工作中存在的问题,然后提出可行性的发展对策。  关键词:环卫档案;管理;问题;对策  随着我国环卫事业的发展,环卫科
期刊
摘要:华为公司自2001年开始进军北美市场,2003年海外市场成为华为的销售重点,但是华为公司在美国市场一直面临着重重壁垒。本文以内外部因素分析矩阵分别列出了影响华为公司的内部因素和外部因素,并对其进行赋分值和权重,得出华为公司的内外部状况都处于优势的结论。同时结合美国市场的进入障碍,进一步简单提出了华为进入美国市场可以采取研究区域商业环境、加强沟通,塑造形象、加强与国际性企业的合作、继续维持或增
期刊
摘要:随着社会的发展,科学技术的更新换代,档案已经由传統的纸质档案向数字档案迈进。档案的管理是一项重要的工作,目前档案管理模式也发生了很大的变化,在档案管理的过程中需要有效的制度支撑,我国各地逐渐实现了档案信息化管理。在管理的过程中可能会遇到很多的问题,人们享受到数字档案的优势,同时也面临着许多问题。比如有时效性更强,内容更加真实可信的优势,但是其中又伴随着数字化的一些问题,本文对数字档案管理中存
期刊
摘要:本课题基于精益生产理论,通过研究蜗轮这种多品种小批量零件的生产模式,分析原有生产模式所带来的弊端。最后尝试用精益生产理论对原有的生产模式进行改善,以探索出一条高效、低成本的精益生产模式。  关键词:精益生产;多品种;小批量;蜗轮;改善  引言  当今的消费市场,消费者都十分看重商品的质量、价格、交货期,期待自己所购买的商品质量好、价格便宜、及时购入。精益生产方式正是研究如何以低成本生产出及时
期刊
摘要:随着科学技术快速发展,机械的发展日新月异。本文根据施工过程中对工程机械各方面的需求,从智能化、信息化、节能化、多样化等方面对未来工程机械的发展趋势进行了分析,旨在更好更快的提升工作效率。  关键词:未来;工程机械;发展  随着社会的发展,机械的使用率越来越高,工程机械在施工中发挥着愈加重要的作用。在这种情况下,本文根据施工过程中对工程机械各方面的需求,并与社会发展相结合,对未来工程机械的发展
期刊
摘要:电梯运行共振的发生原因,其一为硬件设施质量不达标;其二为电梯安装技术不规范,具体到电梯的组成部分,则与电梯的曳引机、导轨导靴、钢丝绳、轿厢以及防机械共振装置等有关。深入分析故障发生原因,提出应对策略,才能够降低电梯运行共振事故的发生率。  关键词:电梯检测;电梯运行共振;原因  随着我国人口的不断增长,人均占地面积不断减少,城市化建设进程的持续推进,高层建筑在整体建筑中的比例不断增长。中高层
期刊
摘要:如果公民对于税收遵从度不高的话则会导致国家税收大量流失,因此世界范围内很多国家对于通过税收征管来提高纳税人的税收遵从度都有很大程度的研究,本文将针对我国纳税人税收遵从度低的原因进行分析,并且针对问题提出一系列的解决措施。  关键词:税收遵从度;纳税人;税收征管  一、我国纳税人税收遵从度低的原因  (1)税收法制化程度不高  税收法定是我国税法中的一项基本原则,但在实践过程中仍然有诸多问题亟
期刊
摘要:进入互联网信息交互融合的新时期,新媒体传播方式多样化给各种文化多元化发展提供了肥沃的生长环境,也使青年官兵价值观念和价值取向呈现出复杂性和不确定性,使当代革命军人核心价值观管理面临较大挑战。利用新媒体信息资源优势,倡导青年官兵树立积极向上的价值观念和价值取向,对牢固树立军人核心价值观具有深远的战略意义。  关键词:新媒体;青年官兵;价值取向;军人核心价值观;管理  一、青年官兵价值取向的基本
期刊