基于MapReduce的文档大数据挖掘若干关键技术研究

来源 :浙江工业大学 | 被引量 : 0次 | 上传用户:yqhbyctu
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
文档作为一种重要的大数据类型,蕴含着丰富的有价值的数据,其具有非结构化、样式不固定、数据混杂、价值稀疏等特征。针对文档大数据的特点,提出了一种基于MapReduce的文档大数据挖掘方法,对文档大数据挖掘的平台框架、文档大数据预处理方法、文档大数据并行挖掘算法等内容进行了研究,其主要研究工作包括:  1.设计了一种基于MapReduce的文档大数据挖掘平台框架。  该框架主要由分布式数据存储、数据抽取、并行数据挖掘、用户接口四个子系统组成。分布式数据存储子系统负责文档的分布式存储;数据抽取子系统负责对文档进行数据抽取并将抽取得到的结果组织成结构化数据;并行数据挖掘子系统负责对存储的结构化数据进行数据挖掘;用户接口子系统负责与用户的交互操作。  2.提出了一种面向非结构化表格文档的数据抽取方法与组织模型。  针对现有抽取方法不能适应多值属性且灵活性不高的问题,在分析非结构化表格文档结构特征和数据流特征的基础上,提出了一种基于规则的数据抽取方法,并将数据抽取结果组织为适合于MapReduce并行编程模型分析的结构化数据模型。  3.实现了基于MapReduce的文档大数据并行挖掘算法。  针对K-Means算法依赖于初始聚类中心和孤立点敏感的问题,提出了一种基于密度的DBK-Means算法并基于MapReduce将其并行化。针对C4.5算法过度拟合和可扩展性差的问题,提出了一种基于Bagging技术的BBC4.5算法并基于MapReduce将其并行化。  最后,结合职称评审文档数据,开发了一个基于MapReduce的文档大数据挖掘平台原型系统,对数据抽取方法和并行算法进行了详细测评。
其他文献
网络测量技术就是指通过对网络数据包的获取分析,统计出相应的重要网络信息。在工业控制生产现场的特殊应用环境中,由于其对网络的实时性、运行状况监测等性能要求很高,所以
直接零件标识(Direct Part Marking,简称DPM)技术是实现产品标识的重要手段,具体是利用激光点刻技术将Data Matrix二维条码打印在金属表面。直接零件标识的二维条码具有永久性和
随着互联网技术的飞速发展,数字地图产品的存储与应用越来越广泛。遥感影像地图作为一种新兴的数字地图产品广泛的应用在军事测绘和地理信息导航领域。但是,如何在应用中保护遥感影像地图产品的版权成为一大研究热点。面对这样的问题,人们提出数字水印技术用于产品的版权保护。数字水印技术通过将水印信息按照特定的形式加载到需要保护的数字产品中以此达到版权保护的目的。同时遥感影像地图数字水印算法还存在以下几个问题:水印
随着微电子技术、低功耗嵌入式技术、无线通信技术以及分布式信息处理技术的飞速发展,无线传感器网络(WSN,Wireless Sensor Network)成为了当今科技的热点,被誉为第三次技术
互联网的广泛应用使得互联网的安全隐私问题成为关键。网络安全中的加密技术虽然可以保护通信中的数据内容,却无法实现对用户身份的保护,匿名通信技术保护了用户通信隐私并实
随着Internet突飞猛进地发展,基于互联网的应用越来越深入,而XML无论是作为标记语言还是被作为存储结构的数据库都随着Internet上的各种应用增多而被越来越广泛的应用。为了
无线传感器网络是一种低成本的、无基础设施的、分布式的自组织网络。它综合了传感器技术、网络通信技术、嵌入式计算技术和分布式信息处理技术,是当前国际上备受关注的新兴
视频拼接技术在视频监控、医学影像分析等领域具有广泛的需求和应用,它是一种将一组具有重叠区域的视频图像在不降低分辨率的条件下合成一个较宽视场的视频图像的技术。  本
随着电子商务的发展,认证邮件协议作为一种能够使协议的参与方都满足公平性的邮件协议,越来越受到人们的关注。认证邮件协议是公平交换协议的一种,它是指一个发送方需要将邮
RSA算法是现在应用最广的公钥密码算法,但是一直以来,受限于嵌入式设备的有限资源问题(如CPU运行速度,内存等),使RSA算法很难在嵌入式设备上高速的运行。近些年来,很多算法被