基于RBM的文本分类算法研究

被引量 : 0次 | 上传用户:lhawk
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
随着大数据时代的来临,爆炸性的信息每年以指数的形式增长。按以往来说,从这些数据中选择我们想要的信息似乎变得不太容易。快速高效的从海量信息中选择我们想要的信息,对这些海量的信息进行归类和管理成为人们日益关注的问题。数据挖掘是机器学习方面的一个重要领域,它能在一定的程度上解决以上困扰我们的问题。而文本分类是数据挖掘的一个重要应用,它能够快速的帮助用户选择想要的信息,能对已有的信息进行分类和管理,具有重大的研究意义。RBM(Restricted Boltzmann Machine, RBM)是一种基于统计力学的神经网络模型。近年来,随着深度学习领域的兴起,作为其基础的RBM模型也受到广泛的关注。但是大部分都把RBM作为特征的提取方式或者为神经网络获得合理化的基础参数,很少对其作为独立的分类器进行研究,在本文中,我们介绍RBM作为独立的分类器进行分类的过程,并且通过实验证明,其在分类的性能上表现良好。其能够很好地学习到文本中隐藏的信息,其实用性的价值也很高。本文选用两种不同的特征选择算法和RBM分类相结合,重点描述了两种特征选择算法和RBM分类的过程,通过实验来验证RBM分类的正确性和高效性;RBM是非常好的神经网络模型,能够模拟我们想要的信息,是值得我们认真去研究和挖掘的。在本文中,我们主要研究和创新的内容如下:1.研究了文本分类所要使用的一些理论依据,在整个文本分类中的一般流程;其中包括文本预处理、特征提取和选择合适的分类算法进行训练,然后对测试文本预处理,最后是使用训练好的分类器进行分类预测。2.然后对一些经典的分类算法进行了研究,总结了它们存在的优点和不足。3.对经典RBM模型进行了深入仔细的研究,其中包括RBM模型的网络结构、RBM的能量函数和概率分布和相关的训练算法。4.提出了一种新型的特征词选取方式,它就是类的专属词特征选择算法,使用它对RBM分类算法过程进行了研究。5.做了一个基于类专属词的RBM分类器和基于文档频数的RBM分类器,通过实验,综合分析了它们的性能;然后根据分类的不同评价标准,做了相应的对比分析。
其他文献
用不同浓度的NaCl和Na2SO4这2种单盐溶液处理8个野生早熟禾(Poa L.)种子,通过种子萌发特性的变化,研究其萌发时的耐盐能力,以期为耐盐早熟禾种质材料的筛选提供依据。结果表
通过一维液压仿真软件对某柴油机润滑系统进行了仿真;根据相关流动参数的仿真结果,分析润滑系统的压力分布.试验研究验证了结果的正确性;通过结构改进优化了柴油机润滑系统的
<正> 一、问题的提出房屋失修损坏情况关系到组织计划维修和拆建更新改造。切实掌握房屋的完损情况,对合理确定修缮项目,安排修建资金有着重大的意义。建设部1984年颁布了《
第一部分大鼠脑出血过程中HDAC各亚型的表达变化目的观察脑出血大鼠脑组织中各种HDAC亚型的表达变化,从而明确参与脑出血损伤的病理过程的HDAC亚型方法采用Ⅳ型细菌性胶原酶
目的:探讨肿瘤标记物变化在肺癌患者化疗效果评价中的应用价值。方法:应用电化学发光免疫分析法检测98例肺癌患者化疗前后CEA、CYFRA21-1、NSE的浓度。结果:腺癌组PR患者化疗
微博作为新兴的传播交流媒介以其传播速度快、互动性强、即时收发等优势得到迅速的普及,促使网络营销活动的发展步伐不断加速。本文提出,要加快企业的营销活动变革的步伐,在
<正>改革开放之初,我首次作为访问学者访美,参加了一次中美历史学者的交流会。有一位美国历史教授讲了一段见闻。他说:问美国学生为什么要学历史,绝大多数的回答就是感兴趣。
本文以铁皮石斛(Dendrobium officinale Kimura et Migo)试管苗为栽培植株;以木屑、松树皮、碎石为栽培基质;以喷施营养液为肥源。试验结果发现:以木屑、松树皮、碎石(3:2:1)
以直径为30μm的球形铜粒子为例,对KY-HVO(A)F多功能超音速火焰喷涂系统进行了不同送粉位置、送粉管直径、倾斜角度以及送粉压力条件下粒子的速度与温度分析。结果表明:送粉
<正> 一、引言美国行政法是与"市场—国家"关系的历史紧密地联系在一起的。特别是在联邦层面上,这种关系不断地演进,从19世纪和20世纪早期限制政府干预的经济自由主义,到"罗