论文部分内容阅读
大数据时代下,数据的价值挖掘与隐私保护的矛盾日益增加。传统信息安全关注保护属性值的安全,而不包含语义;大数据时代的数据隐私保护要求在不暴露用户敏感信息的前提下进行有效的数据使用,关注的是能够实现数据价值的安全方案。
关于非结构化数据安全研究的已有成果集中在属性加密、匿名发布、访问控制等传统模型方法上的改进,也有考虑加入上下文环境(静态)的访问控制规则处理和预防推理攻击的顶层数据结构设计,然而在数据模式与数据需求迅速发展的新形势下,现有的数据隐私保护模型也面临着新的挑战:(1)静态的访问控制模型没有考虑动态的上下文环境,在灵活变化的网络服务中应用效果欠缺,不适合变换的网络环境条件;(2)已有方案对数据的管理依赖于层次结构中的节点定位,实际运行中树结构冗余带来的路径定位和条件判断,硬件能耗代价高,随着数据复杂程度的加深和数据处理量的加大,甚至可能导致引擎的崩溃;(3)忽略了数据元素之间的语义关联,和层次结构本身的关联信息,无论哪种形式的访问控制方案都有可能造成数据信息的过度保护;(4)理论上很难验证顶层结构的推理完备,实践中又忽略了用户动态使用数据过程中不断查询结果的先验知识积累,没有考虑实际运行过程中的背景知识推理攻击。
因此,结合大数据对象的语义本质和多源数据半结构化的组成特点,本文研究以语义关联为数据组织形式,基于动态上下文分层设计的半结构化数据 XML 的隐私保护方案,实现方便用户高效、最大限度的使用数据价值的同时,能够满足原始数据隐私保护的需求。
具体研究内容包括:首先,基于用户本体实现数据内在的语义关联,结合形式化规范化理论描述基于本体的语义依赖,通过推理及相关研究给出语义依赖的理论体系;依据多源数据之间语义关联的本质,遵循自底向上的集成过程,避开传统冗余结构依赖的数据模型,给出倒排全局视图生成算法,实现基于语义的访问控制方案;强化用户的主体语义,结合访问控制规则中“主体否定优先”原则,有效的对原始数据可访范围进行限定,再应用查询策略处理较小规模数据,避免隐私属性访问同时,提高查询效率;最后,引入的动态背景知识上下文,定义先验知识域和隐私二分图,研究并实践抵抗背景知识攻击的隐私保护模型,创新定义 XML 文档语义编码,为实时有效抵抗推理攻击提供实现方案。
具体来说,成果及创新之处有以下几点:
第一,提出了基于语义依赖的数据组织新方法。大数据形成本身就是以语义为本位的,再由实体关联为主线结成‘网络’,数据的同名异义和异名同义是数据汇聚后常见的形态,将语义关联引入多源数据融合描述,不但可以解决不一致,还可以用最简单的结构描述最丰富的语义信息。
第二,提出了动态上下文分层的设计框架。依据个体访问数据自然流程“登录”-“查询”-“连续查询”的不同阶段,将动态上下文划分不同层次定义,通过不同层次语义的动态管理,实现不同目标的隐私保护。
第三,提出了语义关联获取授权的访问控制新模型。基于语义关联的访问控制方案可以追求数据价值最高的数据而不关心数据的组织方式,避开冗余结构,高效的获取用户可授权的数据。同时结合用户主体语义关联的访问控制规则“否定优先”,提高安全访问下的数据查询效率。
第四,提出了实际运行中抵抗背景知识攻击的隐私保护新模型。将用户先验知识作为语义引入动态上下文,有效的依据用户先验知识积累导致语义环境变化,进行预防隐私泄露的方案,并在实际操作层面通过文档语义编码给出了存储和实时推理判定的可行性方案。
关于非结构化数据安全研究的已有成果集中在属性加密、匿名发布、访问控制等传统模型方法上的改进,也有考虑加入上下文环境(静态)的访问控制规则处理和预防推理攻击的顶层数据结构设计,然而在数据模式与数据需求迅速发展的新形势下,现有的数据隐私保护模型也面临着新的挑战:(1)静态的访问控制模型没有考虑动态的上下文环境,在灵活变化的网络服务中应用效果欠缺,不适合变换的网络环境条件;(2)已有方案对数据的管理依赖于层次结构中的节点定位,实际运行中树结构冗余带来的路径定位和条件判断,硬件能耗代价高,随着数据复杂程度的加深和数据处理量的加大,甚至可能导致引擎的崩溃;(3)忽略了数据元素之间的语义关联,和层次结构本身的关联信息,无论哪种形式的访问控制方案都有可能造成数据信息的过度保护;(4)理论上很难验证顶层结构的推理完备,实践中又忽略了用户动态使用数据过程中不断查询结果的先验知识积累,没有考虑实际运行过程中的背景知识推理攻击。
因此,结合大数据对象的语义本质和多源数据半结构化的组成特点,本文研究以语义关联为数据组织形式,基于动态上下文分层设计的半结构化数据 XML 的隐私保护方案,实现方便用户高效、最大限度的使用数据价值的同时,能够满足原始数据隐私保护的需求。
具体研究内容包括:首先,基于用户本体实现数据内在的语义关联,结合形式化规范化理论描述基于本体的语义依赖,通过推理及相关研究给出语义依赖的理论体系;依据多源数据之间语义关联的本质,遵循自底向上的集成过程,避开传统冗余结构依赖的数据模型,给出倒排全局视图生成算法,实现基于语义的访问控制方案;强化用户的主体语义,结合访问控制规则中“主体否定优先”原则,有效的对原始数据可访范围进行限定,再应用查询策略处理较小规模数据,避免隐私属性访问同时,提高查询效率;最后,引入的动态背景知识上下文,定义先验知识域和隐私二分图,研究并实践抵抗背景知识攻击的隐私保护模型,创新定义 XML 文档语义编码,为实时有效抵抗推理攻击提供实现方案。
具体来说,成果及创新之处有以下几点:
第一,提出了基于语义依赖的数据组织新方法。大数据形成本身就是以语义为本位的,再由实体关联为主线结成‘网络’,数据的同名异义和异名同义是数据汇聚后常见的形态,将语义关联引入多源数据融合描述,不但可以解决不一致,还可以用最简单的结构描述最丰富的语义信息。
第二,提出了动态上下文分层的设计框架。依据个体访问数据自然流程“登录”-“查询”-“连续查询”的不同阶段,将动态上下文划分不同层次定义,通过不同层次语义的动态管理,实现不同目标的隐私保护。
第三,提出了语义关联获取授权的访问控制新模型。基于语义关联的访问控制方案可以追求数据价值最高的数据而不关心数据的组织方式,避开冗余结构,高效的获取用户可授权的数据。同时结合用户主体语义关联的访问控制规则“否定优先”,提高安全访问下的数据查询效率。
第四,提出了实际运行中抵抗背景知识攻击的隐私保护新模型。将用户先验知识作为语义引入动态上下文,有效的依据用户先验知识积累导致语义环境变化,进行预防隐私泄露的方案,并在实际操作层面通过文档语义编码给出了存储和实时推理判定的可行性方案。