论文部分内容阅读
随着互联网、物联网及云计算等技术的迅速发展,人工智能、云计算及大数据已经成为了当今社会从信息技术时代向数据技术时代转变的三大支柱。大数据技术也成为了继云计算之后的一大技术体系,其发展不仅涵盖分布式计算和分布式管理,还包括人工智能、机器学习等技术。大数据技术通过不断推进信息资源的融合,给人们的生活带来了很多便利。但是,在数据的收集、使用及分享过程中给人们的隐私安全问题也带了极大的隐患,引起了各行各业的重视。因此,大数据的安全与隐私保护已经成为了大数据技术中亟待解决的关键问题之一。医疗大数据作为国家基础性的战略资源已经被正式纳入国家发展战略中,成为了医疗领域的核心资产。据调查,绝大部分医院都缺乏专门的隐私保护措施,医疗行业已经成为了隐私泄露最为严重的领域之一。而医疗数据又有其特殊敏感性,所以研究医疗行业的安全与隐私问题是非常有必要的。目前学术界关于数据安全与隐私保护技术的研究主要包括访问控制、数据匿名化、数据加密、数据溯源、差分隐私保护、数字水印等,其中,访问控制技术成为了当前研究的热点,但其主要针对操作系统领域,而在信息领域的研究并不多,尤其是专门针对医疗大数据安全与隐私保护的研究少之又少。此外,由于大数据环境下的隐私保护工作需要自动化或半自动化的授权管理,传统的隐私保护模型很难适应这一复杂的开放环境。在上述背景下,本文就目前医疗大数据安全与隐私保护模型中存在的一些不足之处进行完善,提出了一种基于风险访问控制的医疗大数据安全与隐私保护模型。该模型引入了用户信任值,旨在一定程度上降低系统误判的可能性,并将神经网络的自学习能力和模糊理论的知识表达能力相结合,建立了自适应的神经模糊推理系统(Adaptive Neuro-Fuzzy Inference System,ANFIS),它能够动态的对用户访问风险进行预测。本文首先对医疗大数据安全与隐私保护以及基于风险的访问控制研究现状进行了梳理,分析了国内外的研究动态,并对其进行了归纳总结后发现,当前在风险和访问控制方面的研究仍处于起步探索阶段,而专门针对基于风险访问控制的医疗大数据隐私保护的研究极为匮乏。其次,本文不仅对强制访问控制、自主访问控制、基于角色的访问控制以及基于属性的访问控制进行了论述,还分析了其在大数据环境下的局限性,明确了大数据环境下的访问控制策略应该满足自动化或半自动化的授权管理,并且可以根据实际场景动态的调整,从而进一步介绍了基于数据的访问控制模型。接着,通过文献梳理、专家咨询从用户的角度分析了影响医疗大数据安全与隐私泄露的关键指标,包括用户的访问行为及信任度。并且根据用户的历史访问信息及交互记录,借助信息熵、概率等对用户的访问行为及信任度进行了量化,并显式的给出了定义表达式。此外,本文还对常用的风险量化方法进行了归纳,分析了其中存在的优缺点;然后将模糊理论和神经网络相结合,建立了基于自适应神经模糊理论的风险量化模型,并从基本原理、网络结构、风险量化时各参数学习原理三个方面对其进行了详细介绍。最后从实验环境、实验数据、实验过程三个方面详细的介绍了整个实验流程及具体的操作,并借助Matlab将模型的预测结果与实际输出结果进行了对照分析。实验结果发现,误差平均值小于le-5,说明本文的模型在预测医疗大数据安全与隐私泄露风险方面是可行的;除此之外,还将本文的方法与目前比较经典的基于风险的医疗大数据访问控制模型进行了对比分析,结果发现在非法用户的比例小于15%时,本文的模型在精确率及召回率方面都更加的优越。