论文部分内容阅读
伴随着世界科技日新月异的发展,电子信息技术更是在短短几十年间完成数次更新换代。从二十一世纪初期电脑只是少数人的工具,到如今被广泛使用,信息技术及相关的硬件产业正飞速向前发展。在硬件的支持下,计算机的计算力成倍增长,以往被计算力不足所拖累的神经网络算法也开始重新绽放光彩并且展示出与其它机器学习算法不同的特性。在新时代中,神经网络凭借其优秀的性能成为机器学习中不可或缺的一份子。
自编码器是神经网络中与其它网络相差较大的一个分支,是一类自监督的神经网络算法,以原始数据为目标,经过一系列复杂的非线性变换后将原始数据转变为与其类似又不会完全相同的新数据,通过多次迭代使得新数据与原始数据差值尽可能小。这样能够将隐藏层作为原始数据的一种特殊表达,能够深层次挖掘原始数据之间的关系。在自编码的过程中,自编码器会对原始数据进行一定程度的重构,若原始数据之间存在深层次的非线性关系,自编码器可以借助原始数据的相关性在隐藏层对数据进行重构。
在机器学习的一系列算法中,随机森林算法是一种刚诞生不久的算法。其兼具了决策树算法及集成学习之中的Bagging算法的基本思想,同时利用Bagging所独有的特性进一步针对性优化随机森林算法,并使用随机属性选择对单一决策树算法进行变量选取最终得到相对其它机器学习算法更为优秀的性能。随机森林算法相对于普通的决策树算法的优势在于其可以在不经过剪枝的条件下防止算法过拟合,并且在高维数据处理上拥有优秀的并行性,是处理高维数据的一种很好的选择。随机森林算法主要用于数据分类以及非参数回归中,依赖其优异的表现,随机森林算法在医学、生物学、统计学、经济学等众多学科之中拥有着极为广阔的发展前景。
随着时代的发展,自编码器在数据压缩等方面越来越受人们青睐,然而其在提取特征的应用方面还缺少相应的研究。与此同时,有越来越多的数据集不再适用于随机森林算法,而随机森林算法又缺乏对原始数据的处理能力,无法对数据特征进行有效的选择。
针对自编码器与随机森林算法的不足之处,本文从提取原始数据的特征入手,对自编码器进行一定程度的改进,使得自编码器所获取的隐藏层数据特征能够很好的运用于随机森林算法之中,从而结合两者各自的优点。具体研究内容如下:首先使用优化自编码器将原始数据进行非线性重构,其次将重构之后的数据特征应用于随机森林算法之中,使得随机森林算法的性能得到一定程度的优化。最后利用多种数据集对本文算法进行验证。
当代中国的网络信息环境错综复杂,大量没有用处的信息在网络上肆意堆积不仅会使人们使用网络的效率越发降低,而且会对人们精神需求的实现造成阻碍,尤其是体育评论类文章众多且良莠不齐,网民无法从中有效地提取有意义的信息。因此怎样形成一个安全的网络环境,为人们日常的网络使用保驾护航,如何对体育评论文章的客观性进行分类是当下人们密切关注且亟需解决的问题。本文针对上述情况,使用基于优化自编码器的随机森林算法对体育评论文章的客观性进行分类,利用准确率、召回率、OOB score等多种不同角度的评价指标综合分析,全方位对该算法进行评估,以验证该算法的现实价值,进而为当前随机森林算法及自编码器的发展提供一种新思路。
自编码器是神经网络中与其它网络相差较大的一个分支,是一类自监督的神经网络算法,以原始数据为目标,经过一系列复杂的非线性变换后将原始数据转变为与其类似又不会完全相同的新数据,通过多次迭代使得新数据与原始数据差值尽可能小。这样能够将隐藏层作为原始数据的一种特殊表达,能够深层次挖掘原始数据之间的关系。在自编码的过程中,自编码器会对原始数据进行一定程度的重构,若原始数据之间存在深层次的非线性关系,自编码器可以借助原始数据的相关性在隐藏层对数据进行重构。
在机器学习的一系列算法中,随机森林算法是一种刚诞生不久的算法。其兼具了决策树算法及集成学习之中的Bagging算法的基本思想,同时利用Bagging所独有的特性进一步针对性优化随机森林算法,并使用随机属性选择对单一决策树算法进行变量选取最终得到相对其它机器学习算法更为优秀的性能。随机森林算法相对于普通的决策树算法的优势在于其可以在不经过剪枝的条件下防止算法过拟合,并且在高维数据处理上拥有优秀的并行性,是处理高维数据的一种很好的选择。随机森林算法主要用于数据分类以及非参数回归中,依赖其优异的表现,随机森林算法在医学、生物学、统计学、经济学等众多学科之中拥有着极为广阔的发展前景。
随着时代的发展,自编码器在数据压缩等方面越来越受人们青睐,然而其在提取特征的应用方面还缺少相应的研究。与此同时,有越来越多的数据集不再适用于随机森林算法,而随机森林算法又缺乏对原始数据的处理能力,无法对数据特征进行有效的选择。
针对自编码器与随机森林算法的不足之处,本文从提取原始数据的特征入手,对自编码器进行一定程度的改进,使得自编码器所获取的隐藏层数据特征能够很好的运用于随机森林算法之中,从而结合两者各自的优点。具体研究内容如下:首先使用优化自编码器将原始数据进行非线性重构,其次将重构之后的数据特征应用于随机森林算法之中,使得随机森林算法的性能得到一定程度的优化。最后利用多种数据集对本文算法进行验证。
当代中国的网络信息环境错综复杂,大量没有用处的信息在网络上肆意堆积不仅会使人们使用网络的效率越发降低,而且会对人们精神需求的实现造成阻碍,尤其是体育评论类文章众多且良莠不齐,网民无法从中有效地提取有意义的信息。因此怎样形成一个安全的网络环境,为人们日常的网络使用保驾护航,如何对体育评论文章的客观性进行分类是当下人们密切关注且亟需解决的问题。本文针对上述情况,使用基于优化自编码器的随机森林算法对体育评论文章的客观性进行分类,利用准确率、召回率、OOB score等多种不同角度的评价指标综合分析,全方位对该算法进行评估,以验证该算法的现实价值,进而为当前随机森林算法及自编码器的发展提供一种新思路。