基于Spark的超大文本分类方法的设计与实现

来源 :北京交通大学 | 被引量 : 9次 | 上传用户:LoneStrong
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
互联网技术飞速发展,衍生出了海量的网络文本数据。但是大部分海量数据没有经过处理和分类,导致了垃圾邮件、广告推送等不良网络行为的出现,使得人们很难从海量数据中提取出有用信息,浪费了大量时间精力去处理垃圾信息。因此,如何对海量文本数据进行高效的分类,具有重要理论意义和应用价值。论文首先分析了传统的文本分类算法存在的问题:(1)提取特征向量速度慢,效率低。因为海量数据的特征空间趋近无穷开放,但是传统的文本表示算法使用批处理的方式进行离线的特征提取,不仅计算效率低,而且内存占用大,甚至导致内存溢出等严重问题。(2)传统的分类器不适合在大数据计算框架中进行计算。海量数据通常使用分布式并行计算的方式进行处理,而传统的分类算法,例如SVM,朴素贝叶斯分类器,并不适合分布式并行计算。另外,深度学习算法,虽然广泛运用在语义识别中,但是应用在文本分类系统时却是成效甚微,反而需要耗费很长时间进行模型训练,收益并不明显。因此,针对以上问题,论文主要在文本表示、分类器设计两个方面进行研究和探索,主要工作如下:(1)在文本表示方面,提出了基于流数据的在线分域特征选择算法(OFFS算法)。该算法对向量空间模型进行改进,可以对流数据进行实时的特征提取,快速生成文本向量。解决了传统特征提取算法效率低、耗费内存等问题。(2)在分类器设计方面,设计出基于BP神经网络与OFFS算法相结合的OFFS-BP神经网络文本分类器。该分类器适应了分布式并行计算环境,减少模型训练时间,能够兼顾计算效率和分类准确率。(3)基于Spark平台,实现了 OFFS-BP神经网络分类器。首先利用Spark Streaming子框架实现OFFS算法;然后使用Spark MLlib子框架实现BP神经网络分类器;最后将SparkStreaming和Spark MLlib框架通过Spark编程模型RDD进行无缝连接。多种数据集实验表明,论文提出的OFFS-BP神经网络分类器更适合大数据,且计算耗时更少,分类更高效。
其他文献
量子纠错不仅可应用于量子信息的传输和存储,而且可应用于量子信息的动态计算。当量子线路的错误率低于常阈值时,通过量子纠错和线路组件的容错构造,可以实现任意精度的容错量子
随着煤炭生产信息化、TD-SCDMA技术的发展成熟,新型的无线通信技术越来越多地服务于煤矿通信,开发建设煤矿无线通信系统已成为实现煤炭生产和保障生产人员安全的迫切需要。为此
随着信息技术的快速发展,互联网在给人们的生活带来众多便捷的同时,也因其原始设计的缺陷带来了诸多的安全问题。为了从根本上克服传统互联网存在的弊端,下一代互联网互联设
无线传感器网络是能够自主实现数据的采集、融合和传输应用的智能网络应用系统,它的出现,弥补了人类无法涉足区域信息获取困难的遗憾。传输效率、能耗和网络生命周期是自无线传
多用户MIMO(MU-MIMO)传输是下一代无线通信关键技术之一,尤其在闭环MU-MIMO系统中,系统容量得到明显改善。虽然已有理论证明脏纸编码技术是一种最优的预编码方案,可以最大化MU-MIM
由于真实生活中的很多系统都以网络的形式存在,它们的复杂性都比较高,例如科研中的相互合作网络、社会关系中的E-mail关系网、通话中的电话呼叫网等。近年来,随着逐渐对研究
随着数码相机在大众中的普及,越来越多的人开始关注图像质量的优劣。由于实际光照环境等因素的影响,非闪光灯图像常出现亮度偏低、细节模糊不清、色调昏暗等情况;闪光灯照片
一直以来调制方式识别都是通信接收过程中的一个重要环节,无论在民用领域还是军事领域都具有重大意义,因此引起众多专家学者的关注和重视。在通信环境日益复杂的今天,调制方式识