云计算平台的海量数据知识提取框架

来源 :计算机系统应用 | 被引量 : 0次 | 上传用户:bosigai
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
针对从海量数据中分析与提取知识计算时间高的问题,提出一种基于Hadoop的知识提取算法.本文结合Hadoop的并行处理能力与分布式存储特点,设计了一种知识提取框架,可兼容不同的原型约简方法.基于Map Reduce编程方法将约简方法并行化处理,并且设计了分类准确率高、计算速度快的原型约简组合规则.最终基于真实UCI大数据集进行实验,本框架将最近邻分类器的分类时间提高两个数量级.
其他文献
针对目前在线学习系统中存在的不足,探讨如何有效地运用数据挖掘技术建立智慧的在线学习系统.从大量的用户数据中挖掘出关联关系,用以提供全面个性化、定制化的学习过程序列.
在车辆自组织网中,针对安全消息广播的有效覆盖及竞争冲突问题,本文提出了基于概率及退避等待的广播机制(VANET Broadcast Mechanism based on Probability and Backoff,VBM-PB).该机制隶属于接受者机制,其复杂度低并且具有完全分布式计算特性.VBM-PB将车辆的地理位置信息和节点负载结合,计算各节点潜在的转发概率;构造概率转发函数并设计自适应退
提出一种基于双GPS的振捣棒定位算法.该算法首先获得GPS精确定位的坐标数据,并将所得坐标数据反馈至单片机.然后在单片机中经过该算法的整合处理,最后得出振捣棒的位置坐标.
模仿人类行为的HTTP洪水是一种分布式拒绝服务攻击.提出一种抵御方法,它包括三个关键点:使用会话号标示请求者身份,通过分析单位时间的请求消息序列发现傀儡主机,通过丢弃或修
"汉英-泰互译有声语料库"的开发,在泰文舆情分析领域,解决了词典分词算法中训练语料缺乏的问题.本文采用计算机化信息处理技术,对大量的收集来的泰文语料进行整理、规范、加工
针对复杂背景下的正面人脸检测问题,提出一种三级级联快速正面人脸检测算法:第一级使用HSV肤色模型,通过分析最大肤色连通区,快速排除非人脸区域;第二级采用Haar-like特征结合Ada Boost算法定位人脸区域;最后提出基于局部特征点加权的改进主动形状模型(W-ASM)算法匹配人脸的特征点坐标,通过68个特征点位置判断当前人脸图像是否是正面人脸.实验结果表明,本算法能准确识别出垂直于图像旋转不超
针对日益严重的网络钓鱼攻击,提出机器学习的方法进行钓鱼网站的检测和判断.首先,根据URL提取敏感特征,然后,采用AdaBoost算法进行训练出分类器,再用训练好的分类器对未知URL
为了实现产品使用、维护乃至生命结束阶段数据的自动、有效采集,在简要介绍产品嵌入式信息设备(Product Embedded Information Device,PEID)概念、类型、功能和参考架构的基础
车载终端是车联网系统的重要组成部分,为了提高终端软件的可靠性和开发效率,参考NGTP(Next Generation Telematics Pattern),设计了一个开放式的车载终端软件架构.在该架构中,
研究了在Linux OS上交叉编译Open CV和Qt后将其移植到嵌入式Linux操作系统的方法.搭建了以ARM920T为核心的嵌入式图像处理平台,能够实现复杂图像算法的处理.在此平台上实现了