【摘 要】
:
从大量历史数据中挖掘出有用信息的可能性很久之前就被人们意识到了。然而应用场景往往产生大量数据,如果先把这些数据存储下来再进行分析,将会耗费大量的资源。尤其是在对实
论文部分内容阅读
从大量历史数据中挖掘出有用信息的可能性很久之前就被人们意识到了。然而应用场景往往产生大量数据,如果先把这些数据存储下来再进行分析,将会耗费大量的资源。尤其是在对实时性要求很高的应用场景中,这更是不可行的。因此,一种通用的方法是把数据预处理后,存储下来用于以后分析。为了利用这些预处理后的数据,一般的策略是将这些数据作为训练数据,训练出理想的模型来对未来数据进行预判分类。支持向量机属于结构风险最小化模型,能够有效的控制过拟合,具有非常高的研究价值。然而由于大量数据上训练支持向量机模型将耗费大量时间,因此如何并行地实现SVM模型一直是一个研究热点。本文针对上述海量数据的预处理和分类问题,提出了一系列解决方案。包括分布式流式计数系统的设计以及适用于大规模训练数据集的支持向量机算法库的开发。首先,本文提出一种并行的流式计数算法,并证明其误差边界和内存之间的关系,确保该算法在保证误差边界的情况下同时具有大规模并行能力。其次,本文基于提出的算法,利用实时计算平台Storm进行开发,最终对系统进行测试。测试表明,本文实现的系统具有很好的并行能力,并且能够满足足够高的吞吐量。最后,本文针对大规模支持向量机的优化问题进行研究,并基于分布式计算平台Spark开发出非线性支持向量机。
其他文献
随着移动互联网的发展,以及人们对网络带宽需求的不断提高,传统互联网架构暴露了很多问题.IP地址管理困难、IP地址枯竭网络穿越等问题。近年来,人们开始着手对下一代互联网架
移动网络数据服务的飞速发展带动了大量的数据需求,传统蜂窝网络的服务能力受到了严峻挑战。D2D通信方式能够提高网络频谱利用率、增大系统吞吐量与扩大网络覆盖,可以有效缓
监控系统在人们的日常生活中扮演着越来越重要的角色。然而,海量冗长的监控视频使得人工辨识成为一件费时费力的工作。如今,人们对智能监控的需求与日增长,对监控目标进行自
在宽带通信中,单载波频域均衡(SCFDE)技术能够有效地对抗由于信道频率选择性衰落而带来的码间干扰,MIMO技术能够在不增加发送功率和带宽的情况下仍能有效地提高在多径干扰下
近年来移动数据量呈爆炸式增长,不断逼近蜂窝移动通信网络的容量极限。为了解决用户对移动通信网络容量需求的不断增长同移动通信网络频谱资源有限之间的矛盾,密集异构网络应
近几年来,伴随物联网的迅速发展,物联网设备产生的信息量也越来越大。如何对这些信息进行有效的处理和响应已成为物联网平台的重要问题。已有的基于规则的处理方案对规则定义
本论文主要针对认知无线电系统中频谱检测算法进行了研究。认知无线电系统通过检测频谱是否已经被占用,将检测到的空闲频谱进行再分配,用于认知用户的通信和数据传输,以此来
随着社会的快速进步和科技的迅猛发展,群体智能与人工智能的发展也越来越迅速,现在已经被广泛应用到社会生活的各个方面。群体智能优化算法具有分布性强、鲁棒性高和非直接通
伴随着移动互联网络的蓬勃发展,基于位置的服务逐渐渗透到人们的日常生活中,在物品存储、紧急救助、交通管理、个性化信息处理等领域展现出其强大的应用价值,极大地便利了人
集装箱水路运输作为一种运输量大、货物类型限制小、综合成本低廉的运输手段,在国际贸易中发挥着巨大作用。快速增长的集装箱吞吐需求在给港口创造巨大商业效益的同时也给港