论文部分内容阅读
大数据时代的到来,各行各业保存和维护着规模越来越大的数据。大量数据的背后,隐藏着巨大的商业价值。相对于数据的增长速度,人们对于大数据的分析能力却无法满足要求,出现了数据存量很大,却仍然信息匮乏的窘境。在大数据分析方面,大规模数据的集成和挖掘是要面临的两大问题。传统的数据集成方法无法处理异构数据带来的语义冲突,同时随着数据量的增大,其效率会显著下降。传统的数据挖掘由于受单机处理性能的影响,在处理海量数据时效率太低。云计算平台的出现为解决这一现状提供了很好的思维和方法。本课题基于Hadoop平台,充分探究了传统的数据集成方案和数据挖掘算法在大数据处理方面的研究现状和不足,设计和实现了一个基于大数据平台的数据分析工具,从异构数据集成和海量数据分析两个方面来展开研究,主要工作如下:1)异构数据集成方面。将本体引入异构数据的集成过程中,利用局部本体和全局本体的映射来产生映射规则,并在映射规则的指导下完成异构数据的抽取、转换并加载到Hadoop平台的数据仓库Hive中。在局部本体构建过程中,通过将转换规则编码实现完成局部本体的自动构建。在本体映射过程中,采用综合的本体相似度计算方法来提高映射的准确性。2)数据挖掘与分析方面。将数据挖掘中聚类、分类以及关联规则等经典算法与Hadoop平台的MapReduce并行编程模型相结合,设计和实现数据挖掘算法的并行化,借助云平台强大的计算和存储能力来对数据仓库中的数据进行挖掘和分析,取得了较好的实验效果。本课题的方案能够在大数据平台中实现异构数据的集成和数据分析。将本体加入异构数据集成过程,提高了异构数据集成的准确性和效率,实现了集成的自动化,并通过与Hive的结合,能够高效处理海量数据。在Hadoop平台上利用MapReduce编程模型将数据挖掘算法并行化进行分布式计算,大大提高了数据挖掘方法在处理海量数据时的效率,具有较好的实用价值。