论文部分内容阅读
随着大数据时代的来临,爆炸性的信息每年以指数的形式增长。按以往来说,从这些数据中选择我们想要的信息似乎变得不太容易。快速高效的从海量信息中选择我们想要的信息,对这些海量的信息进行归类和管理成为人们日益关注的问题。数据挖掘是机器学习方面的一个重要领域,它能在一定的程度上解决以上困扰我们的问题。而文本分类是数据挖掘的一个重要应用,它能够快速的帮助用户选择想要的信息,能对已有的信息进行分类和管理,具有重大的研究意义。RBM(Restricted Boltzmann Machine, RBM)是一种基于统计力学的神经网络模型。近年来,随着深度学习领域的兴起,作为其基础的RBM模型也受到广泛的关注。但是大部分都把RBM作为特征的提取方式或者为神经网络获得合理化的基础参数,很少对其作为独立的分类器进行研究,在本文中,我们介绍RBM作为独立的分类器进行分类的过程,并且通过实验证明,其在分类的性能上表现良好。其能够很好地学习到文本中隐藏的信息,其实用性的价值也很高。本文选用两种不同的特征选择算法和RBM分类相结合,重点描述了两种特征选择算法和RBM分类的过程,通过实验来验证RBM分类的正确性和高效性;RBM是非常好的神经网络模型,能够模拟我们想要的信息,是值得我们认真去研究和挖掘的。在本文中,我们主要研究和创新的内容如下:1.研究了文本分类所要使用的一些理论依据,在整个文本分类中的一般流程;其中包括文本预处理、特征提取和选择合适的分类算法进行训练,然后对测试文本预处理,最后是使用训练好的分类器进行分类预测。2.然后对一些经典的分类算法进行了研究,总结了它们存在的优点和不足。3.对经典RBM模型进行了深入仔细的研究,其中包括RBM模型的网络结构、RBM的能量函数和概率分布和相关的训练算法。4.提出了一种新型的特征词选取方式,它就是类的专属词特征选择算法,使用它对RBM分类算法过程进行了研究。5.做了一个基于类专属词的RBM分类器和基于文档频数的RBM分类器,通过实验,综合分析了它们的性能;然后根据分类的不同评价标准,做了相应的对比分析。