【摘 要】
:
大数据时代到来,各领域据所积累的数据爆炸式增长,越来越多的数据价值等待着我们去挖掘,这使得数据挖掘这门技术近几年来变得炙手可热。由于传统的数据分析方式并不能处理文
论文部分内容阅读
大数据时代到来,各领域据所积累的数据爆炸式增长,越来越多的数据价值等待着我们去挖掘,这使得数据挖掘这门技术近几年来变得炙手可热。由于传统的数据分析方式并不能处理文本数据,文本之类的非结构化数据中的价值并没有得到充分的挖掘。因此相较对传统结构化数据的挖掘,文本挖掘似乎更符合当下的时代背景和现实需求。文本分类是文本挖掘研究的热点方向且极具实用价值,因此文本分类被广泛的应用到各领域。理论部分,本文从文本挖掘的概念开始,逐步介绍了文本挖掘的相关知识,包括文本预处理、权重计算、特征选择以及文本表示等。重点介绍了文本分类的常用统计学习方法,如最近邻算法(KNN)、朴素贝叶斯算法(NB)和决策树算法(DT)等,并分析了各自算法的特点。在集成学习方面,概述了Bagging和Boosting两种方法的相关理论,比较了两种方法的异同,并重点介绍了具有代表性的随机森林算法。实证部分,首先选取了三种常用的单一分类模型算法,比较了其在文本分类方面的表现。从分类精度来看,KNN算法因其较好的稳定性和灵活性表现要好于朴素贝叶斯算法和决策树方法。此外,在同一份数据上我们建立了随机森林模型,比较了其与KNN算法的分类效果,结果证明集成学习分类模型在精度方面确实优于单一分类模型。最后考虑到在实际应用过程中通常文本数据规模较大,尝试了一种基于单机的文本分类模型,结果表明该模型具有一定的实用价值。
其他文献
本文在比较分析传统路面融雪技术与自融雪纤维沥青混凝土技术性能的基础上,对自融雪纤维沥青混凝土的材料设计与施工质量控制要点进行了探讨。该技术在辽宁抚顺某公路山区段
金九银十已不足以说“金”道“银”“金九银十”,一个描绘自然季节的概念,什么时间成为经济领域、尤其是房地产行业的流行名词已不可考。曾经它被用来概括九、十月份的市场形势
转喻是人类重要的思维方式之一,从认知视角审视英语学习词典中转喻义项的表征情况具有理论借鉴意义和实践指导价值。文章概述了专著《概念转喻与词典表征》的主要内容,简要介
无论市场是冷是热,营销一直是房地产企业关注的重中之重,在半年前,市场处于“寒冬“之时,业界一直讨论弱势的营销问题。如今,市场又重新进入了活跃期,但同时竞争也开始激烈起来,在这
文章总结了大型辞书《汉语大字典》从编纂到修订、出版的艰辛历程..突出第二版修订的特色:规模大、内容新、使用易、形式关,指出大型辞书的成功修订需要一种文化坚守的精神,需要专
分析了成都市石人公园的景观现状,针对该公园的地形特征,从建筑元素、景观布局、景物设计等方面,阐述了该公园中绿地景观改造的主要方式,为人们创造出舒适优美的娱乐休闲场所
分析了基于成本费用率的病种成本核算方法在医疗机构运营管理中的应用。该方法通过对不同难度、不同结构、不同临床过程的病种收入、成本及效益测定,明确了医疗机构的补偿方
郑国是西周晚期分封的诸侯国,自公元前806年由周宣王分封建国,至公元前375年被韩国所灭,共经历了 24位国君,延续了 431年,是春秋战国时期重要的诸侯国之一。由于郑的特殊地理位置,与各诸侯国之间来往密切,活跃在春秋战国的国际舞台之中。自周平王东迁之后,我国进入东周时期,周王室衰微,诸侯相继崛起,“称霸中原”成为当时社会的主旋律。郑国,在当时多变的历史时期,无疑是具有代表性的一个国家,在春秋初期