论文部分内容阅读
在互联网时代,信息爆炸式增长,海量数据不断产生,从而导致用户难以迅速找到自己所需要的信息等困难。因此,迫切需要一种新的数据获取方式。概念格,作为一种新颖的数据挖掘工具,能从海量数据中挖掘数据的潜在价值。目前,概念格已经成为一个重要的研究领域,例如概念格构造及其应用等。然而,概念格作为一种数据处理工具,在大数据环境下也面临存储和计算的难题。因此,在大数据的环境,如何存储形式背景以及生成概念格的概念是我们需要解决的问题。本文实现了海量数据的存储和计算,基于云计算架构,为形式概念分析(FCA)提出了并行和分布式的实现方法。使用Hadoop的分布式文件系统(HDFS)实现了分布式存储,基于Map-Reduce模型实现了并行计算。首先改进概念格生成算法,使其可以实现分布式存储和计算,然后在云计算架构下实现它。实验结果表明,我们提出的并行算法是可行有效的。本文分析了概念格理论知识和构造算法,主要研究了概念格的分布式存储和并行计算的技术,Hadoop分布式文件系统和Map-Reduce计算模型是本文研究的基础。概念格是一种有效的数据分析工具,它展现了概念之间特化与泛化的关系。通过概念格,能够有效的发现对象与属性之间、概念之间的隐含关系,运用这种关系,可以从中发现物与物之间以及物与人之间、人与人之间的关联规则,于是就产生了基于这种规则的推荐系统。但是,很多推荐系统发展至今都面临着两大问题,一是冷启动问题,另一个是数据稀疏问题。对于数据稀疏问题,本文提出了一种解决方案。本文对于概念格关联规则推荐算法中数据稀疏问题,提出了解决方案,运用矩阵填充策略,在充分分析了矩阵填充技术的基础上,选择非精确拉格朗日乘子法对稀疏矩阵进行填充,对填充的矩阵使用SVD协同过滤算法进行推荐,对推荐结果分别用平均绝对误差、均方根误差方法进行评估。实验结果表明,运用矩阵填充的推荐算法提高了推荐的精确度。