Spark框架相关论文
传统增量算法主要侧重于从更新近似的角度进行属性约简,但在处理大规模数据集时需要评估所有属性并反复计算重要度,提升时间复杂度,降......
为减少医疗数据挖掘的运算时间,提高医院数据整合效率,提出一个基于人工智能的医院数据整合方案。首先,在等价类转换Eclat算法的基础......
随着新媒体和互联网等行业的迅速发展,产生的数据越来越多,在大数据环境下快速高效地完成数据挖掘是当下的热点问题。关联规则挖掘......
文章针对频繁项集挖掘中传统串行Eclat算法面对海量数据时挖掘效率不高的问题,提出一种海量数据下的并行频繁项集挖掘算法,即I-SPEcl......
大数据时代背景下,基于Hadoop平台构建的电商推荐系统面临数据处理效率低下、难以根据用户实时行为进行推荐的问题。针对Hadoop平台......
为解决在大数据环境下,网络信息快速膨胀导致的“信息过载”问题,即用户无法从海量信息中快速准确获取有用信息。提出在基于Scala语......
地震往往会造成十分严重的人员伤亡和财产损失,如能对已知地震数据进行系统的分析和研究,并从中找出一些规律,就能尽早地采取一些防震......
近年来,物流产业发展迅速,传统物流已经不能满足人们的需求,开始向智慧物流转变.本文将大数据与物流深度融合,设计了一个基于Spark......
针对划分聚类算法处理海量的数据存在的数据离散系数较大与抗干扰性差、局部簇簇数难以确定、局部簇质心随机性及局部簇并行化合并......
针对互联网企业的跨界竞争,分析了互联网企业投建光伏电站的运营模式.以增城物流园区屋顶光伏电站为例,从大数据技术和发用电模式......
随着人们生活水平的不断提高,国内机动车保有量持续上升,机动车辆已成为民众的主要出行交通工具之一。与此同时,与车辆相关的违法......
针对传统协同过滤算法在处理超大规模用户物品评分矩阵时面临的计算时间过长问题,本文对基于ALS的协同过滤算法和分布式计算框架Sp......
大数据时代,互联网及其产品已融入各行各业,人们开始通过互联网来获取更多的机遇和有价值的信息。与此同时,通过网络传播信息可以......
传统分类方法对于动态数据处理能力较差,无法得到高精度分类结果.针对此情况,设计基于Spark框架的网络大数据分类处理方法.通过构......
在千亿级大数据环境下,特征挖掘、实时处理、即席分析、离线计算等场景对计算、存储的性能要求非常高.基于传统的关系型数据库、分......
传统邻域分类器因良好的分类性能在分类问题中得到广泛应用。但数据规模和维度的不断增加,提高了邻域分类器的处理难度。为解决这......
关系网络是人或其它对象通过相互联系和影响构成的结构或系统,通过对关系网络的研究,有助于发现仅依靠个体信息无法获得的重要信息。......
随着信息与网络技术的快速发展,大数据已经影响到每一个行业。大数据的价值在于从各种类型的数据中快速获取有用的信息,而数据预处理......
情景模式挖掘是序列模式发现的一次延伸和扩展,它的任务是从一条事件序列中获得满足一定规律的有序子序列。自提出以来,情景模式挖掘......
本体可以用来实现某种程度的知识共享和重用。不同的本体语言具有不同的表达能力,能够不同程度的蕴含语义信息。使用相应的推理机,......
随着互联网的快速发展,人们已经从信息匮乏时代进入了大数据时代,和搜索引擎一样,个性化推荐系统也是一种帮助用户在信息过载的情......
随着互联网的飞速发展,社会进入了一个数据爆炸的时代。这些数据蕴含着大量的价值,如何从这些海量数据中挖掘出有价值的信息成为了......
由于互联网中信息爆炸式的增长,导致用户很难直接发现有用的信息。为此,根据用户的历史行为数据进行建模的推荐系统吸引了学者的广......
风力发电是近几年大力发展的新可再生能源。是一种有效的降低发电成本,减少环境污染的新能源,能够很好的并入国网使用。保证风电机组......
相似性连接是数据挖掘分析领域的基础操作,在数据清洗、生物信息学和信息集成等众多领域有着广泛的应用意义。相似性连接处理的数......
图书馆微信服务平台运行稳定性较差,导致平台的数据处理效率较低,对此,基于Spark框架设计一种新的图书馆微信服务平台。分析图书馆......
项目后评价是项目管理过程的重要环节,目前电网技改大修项目只选取部分重点项目开展后评价试点,无法反映项目整体执行效果。本文介......
伴随着数据时代的到来,网络用户每天需要接收无数不同类别的信息,面临从海量信息中选取所需信息的困扰,这时推荐系统应运而生。在......
时态数据是无处不在的,现如今海量的时态数据正在被生成。海量时态数据的管理非常重要,并且具有挑战性。面对海量的时态数据,分布......
随着信息时代的发展,现实社会的数据正快速增多,如何快速处理这些数据并从这些数据中分析挖掘价值已经成了现实世界的迫切需求。越......
作为一种重要的数据来源,视频数据具有体量巨大、产生速度极快、价值稀疏和完全非结构化等大数据的典型特征,是大数据技术研究的重......
针对传统文献推荐过程中易于发生文献查找困难、文献浏览迷失等问题,基于大数据特征,利用内存计算中Spark系统框架高的容错机制和......
针对传统的Hadoop MapReduce框架下数据计算效率低下的问题,选用基于内存迭代计算的Spark框架,提出融合用户偏好与上下文信息的加......
近年来,基于网络的应用系统规模和数量呈现快速增长,应用系统的运行效率和适用性出现瓶颈。完善系统相关的业务流程和规则、提升系统......
目前研究大数据局部频繁项集挖掘一般采用深度挖掘数据信息的算法设计,但其挖掘成本过高,挖掘效率过低,因此,基于Spark框架提出一......
随着人工智能的兴起,针对如今交通拥堵和交通压力激增的状况,研究人员在交通领域提出了智能交通系统。拥有准确度高、时效性快的交......
针对大数据中的频繁项集挖掘问题,提出一种基于Spark框架的FP-Growth频繁项集并行挖掘算法。首先,根据垂直布局思想将数据按照事务......
随着电力体制改革的不断深入以及大数据技术的发展,传统的供电公司和综合能源服务企业急需改善现有的粗放型营销模式,实现不同用户......
摘要:随着Android恶意软件的数量越来越多,寻求有效的恶意软件检测方法显得越来越重要。针对Android手机恶意软件检测的现状,文章根据......
别大规模数据的潜在模式.但其存在两个问题:多次迭代Master和Worker节点间数据交换,导致算法运行效率低;对初始聚类中心敏感,导致......
摘要:校园内共享单车被破坏和挥霍助学金的情况屡见不鲜,既不利于大学生自身的健康成长,也给社会造成了负面影响。基于大数据技术构建......
研究海量数据基础上高速公路流量预测建模问题,提出了一种基于ARIMA-BPNN的混合预测模型,并建立基于Spark的分布式处理平台。建立A......
框架扰动理论是框架研究中的一个活跃分支,本文针对FullSpark框架的扰动问题,首先研究了框架的扰动性质,并说明框架与FullSpark框架区......
Hilbert空间中的full spark框架在框架理论中具有很好的性质—最大鲁棒性.本文所做的一个重要工作是将序列空间中的full spark框架......
频繁模式挖掘作为模式识别的重要问题,一直受到研究者的广泛关注。FP-Growth算法因其高效快速的特点,被大量应用于频繁模式的挖掘......
目前处理时态大数据连接操作多数运用分布式系统,但现有的分布式系统尚不能支持原生的时态连接查询,无法满足时态大数据低延迟和高......
在基于可满足性模理论(SMT)的限界模型检测中,限界深度对于程序验证结果的可信性和程序验证效率具有重要影响。传统串行检测方法由于......
现有并行FP-Growth算法在挖掘项之间具有层次关系的事务数据时存在冗余项集大、效率低的缺点。针对上述问题,提出一种基于Spark的......
逻辑回归和线性支持向量机是解决大规模分类问题的有效方法,然而它们的分布式实现问题到现在也没有得到更好的研究.近年来,由于分......
网络评论指的是线上平台中对某个(类)实体或非实体的主观性描述。如今,网络评论的热点发现已成为人工智能领域在文本评论价值挖掘......