论文部分内容阅读
分类问题作为人工智能领域尤其是数据挖掘方向的一个重要问题,广泛存在于语音及图像识别、计算机视觉分析与处理等大数据应用场景,近年来深受学者关注,诸多相应分类算法也陆续提出。在设计各种分类算法的过程中,分类学习模型的训练生成是至关重要的一环。在训练集数据量足够大且对应数据质量较高的前提下,得出的学习模型分类精度一般相应较高。本文紧密结合区块链技术从如何确保数据总量和如何保证数据质量两方面入手,旨在提出设计分布式环境高精度分类算法的有效解决方案。主要研究内容如下:(1)不同行业的数据往往产生于各分布式区域环境,同一行业的数据产生也具有较高的分布性和独立性,大数据挖掘应用需要整合一定规模的数据进行模型训练,经常会因数据的私密性而遇到数据壁垒问题,难以促成各数据拥有方进行有效数据共享。为解决该分布式隐私数据共享问题,本文提出一种基于区块链技术的加密数据联合方案以打破分类学习数据壁垒,使得互不信任的相关数据拥有方之间在智能合约基础上进行加密数据共享以确保数据集规模足够大,从而提高分类学习算法的分类精度等性能。(2)在上述数据共享方案的基础上提出了基于区块链的ID3决策树数据联合分类算法BDTC,利用数据联合之后的加密数据集进行分类模型训练研究,并引入智能合约激励机制促进各数据拥有方共享高质量数据。与之前基本数据集训练出的ID3决策树分类模型进行对比,在分类精度提升上优越性显著,通过联盟链节点间交易实验验证了提出的算法具有较好的可行性。(3)为进一步提升BDTC方案的分类精度,在提出的数据共享方案基础上,提出了基于区块链的BP神经网络数据联合分类算法BNNC,算法利用数据联合后的加密数据集进行神经网络学习模型训练,并引入智能合约激励机制促进高质量数据的积极共享。与基本数据集训练得出的BP神经网络模型进行对比,BNCC算法虽分类耗时稍有增加,但分类精度提升明显,联盟链交易实验亦验证了其具备较好的可行性。