基于Spark的超大文本分类方法的设计与实现

来源 :北京交通大学 | 被引量 : 9次 | 上传用户：LoneStrong

【摘要】

：

互联网技术飞速发展,衍生出了海量的网络文本数据。但是大部分海量数据没有经过处理和分类,导致了垃圾邮件、广告推送等不良网络行为的出现,使得人们很难从海量数据中提取出

【作者】

：

宋福星

【机构】

：

北京交通大学

【出处】

：

北京交通大学

【发表日期】

：

2017年01期

【关键词】

：

大数据文本分类在线特征提取神经网络 Spark框架

下载到本地 , 更方便阅读

下载此文赞助VIP

声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架

论文部分内容阅读

互联网技术飞速发展,衍生出了海量的网络文本数据。但是大部分海量数据没有经过处理和分类,导致了垃圾邮件、广告推送等不良网络行为的出现,使得人们很难从海量数据中提取出有用信息,浪费了大量时间精力去处理垃圾信息。因此,如何对海量文本数据进行高效的分类,具有重要理论意义和应用价值。论文首先分析了传统的文本分类算法存在的问题:(1)提取特征向量速度慢,效率低。因为海量数据的特征空间趋近无穷开放,但是传统的文本表示算法使用批处理的方式进行离线的特征提取,不仅计算效率低,而且内存占用大,甚至导致内存溢出等严重问题。(2)传统的分类器不适合在大数据计算框架中进行计算。海量数据通常使用分布式并行计算的方式进行处理,而传统的分类算法,例如SVM,朴素贝叶斯分类器,并不适合分布式并行计算。另外,深度学习算法,虽然广泛运用在语义识别中,但是应用在文本分类系统时却是成效甚微,反而需要耗费很长时间进行模型训练,收益并不明显。因此,针对以上问题,论文主要在文本表示、分类器设计两个方面进行研究和探索,主要工作如下:(1)在文本表示方面,提出了基于流数据的在线分域特征选择算法(OFFS算法)。该算法对向量空间模型进行改进,可以对流数据进行实时的特征提取,快速生成文本向量。解决了传统特征提取算法效率低、耗费内存等问题。(2)在分类器设计方面,设计出基于BP神经网络与OFFS算法相结合的OFFS-BP神经网络文本分类器。该分类器适应了分布式并行计算环境,减少模型训练时间,能够兼顾计算效率和分类准确率。(3)基于Spark平台,实现了 OFFS-BP神经网络分类器。首先利用Spark Streaming子框架实现OFFS算法;然后使用Spark MLlib子框架实现BP神经网络分类器;最后将SparkStreaming和Spark MLlib框架通过Spark编程模型RDD进行无缝连接。多种数据集实验表明,论文提出的OFFS-BP神经网络分类器更适合大数据,且计算耗时更少,分类更高效。

其他文献

基于量子纠错码的CNOT门扩展矩形容错构造方法研究

量子纠错不仅可应用于量子信息的传输和存储，而且可应用于量子信息的动态计算。当量子线路的错误率低于常阈值时，通过量子纠错和线路组件的容错构造，可以实现任意精度的容错量子

学位

量子纠错码量子LDPC码容错量子计算Shor-ECCNOT扩展矩形容错阈值开销容错辅助态制备

基于TD煤炭专网语音用户面系统的研究与实现

随着煤炭生产信息化、TD-SCDMA技术的发展成熟，新型的无线通信技术越来越多地服务于煤矿通信，开发建设煤矿无线通信系统已成为实现煤炭生产和保障生产人员安全的迫切需要。为此

学位

TD-SCDMA煤炭专网IUUP协议语音业务用户面系统

基于LTE的智慧标识移动专网服务安全访问机制设计与实现

随着信息技术的快速发展,互联网在给人们的生活带来众多便捷的同时,也因其原始设计的缺陷带来了诸多的安全问题。为了从根本上克服传统互联网存在的弊端,下一代互联网互联设

学位

LTE智慧标识网络标识专网服务分类DOS攻击防御

无线传感器网络中路由协议的研究

无线传感器网络是能够自主实现数据的采集、融合和传输应用的智能网络应用系统，它的出现，弥补了人类无法涉足区域信息获取困难的遗憾。传输效率、能耗和网络生命周期是自无线传

学位

无线传感器网络能量多路径路由协议地理位置路由协议路由空洞

多用户MIMO系统中的机会波束成形技术

多用户MIMO（MU-MIMO）传输是下一代无线通信关键技术之一，尤其在闭环MU-MIMO系统中，系统容量得到明显改善。虽然已有理论证明脏纸编码技术是一种最优的预编码方案，可以最大化MU-MIM

学位

多天线机会波束成形系统容量机会调度

基于信息熵复杂网络社团发现算法研究

由于真实生活中的很多系统都以网络的形式存在,它们的复杂性都比较高,例如科研中的相互合作网络、社会关系中的E-mail关系网、通话中的电话呼叫网等。近年来,随着逐渐对研究

学位

复杂网络社团结构节点相似度发现算法信息熵算法

闪光灯图像增强技术研究

随着数码相机在大众中的普及,越来越多的人开始关注图像质量的优劣。由于实际光照环境等因素的影响,非闪光灯图像常出现亮度偏低、细节模糊不清、色调昏暗等情况;闪光灯照片

学位

数码摄影闪光灯图像增强技术红眼现象阴影检测颜色层

基于Duffing振子阵列的调制方式识别研究

一直以来调制方式识别都是通信接收过程中的一个重要环节，无论在民用领域还是军事领域都具有重大意义，因此引起众多专家学者的关注和重视。在通信环境日益复杂的今天，调制方式识

学位

Duffing振子调制识别功率谱熵神经网络

基于Spark的超大文本分类方法的设计与实现

其他学术论文