【摘 要】
:
K-均值聚类算法作为数据挖掘中最常用、最强大的聚类算法之一,广泛应用于数据库、人工智能、统计学和生物学等各个领域。通常聚类所需要的原始数据分布在不同的组织或机构中,数据拥有者希望通过与他人合作来进行全局数据挖掘,获得更准确的聚类结果。然而,作为大数据时代的核心资产,数据不能轻易的被分享出去,因此,出现了一个难题:数据提供者担心数据泄露,不愿也不能公开自己的数据;相反,数据需求者需要准确的、大量的数
论文部分内容阅读
K-均值聚类算法作为数据挖掘中最常用、最强大的聚类算法之一,广泛应用于数据库、人工智能、统计学和生物学等各个领域。通常聚类所需要的原始数据分布在不同的组织或机构中,数据拥有者希望通过与他人合作来进行全局数据挖掘,获得更准确的聚类结果。然而,作为大数据时代的核心资产,数据不能轻易的被分享出去,因此,出现了一个难题:数据提供者担心数据泄露,不愿也不能公开自己的数据;相反,数据需求者需要准确的、大量的数据来支持数据分析。隐私保护聚类技术使用安全多方计算和同态加密原语来保证数据的安全性,从而实现数据的安全流通,有效的解决了该难题。传统的隐私保护聚类方案大多基于半可信模型,即参与方严格遵循协议。多数情况下,半可信模型足以满足人们的安全性要求。恶意模型作为隐私保护聚类方案的另一种安全模型,提供更强了的安全性。在恶意模型中,即使敌手不遵循协议,也能够保证数据安全,在实际中有更广泛的应用前景。本研究在恶意模型下提出了一种新的隐私保护K-均值聚类方案,主要研究内容和成果总结如下:在恶意模型下,本文采用安全多方计算技术构造以及实现了水平和垂直分区数据集的安全K-均值聚类。针对明文K-均值算法包括输入、聚类中心初始化、划分数据、更新聚类中心和计算终止条件的五个模块,本文首先提炼共有的基础计算单元以及对应的安全计算单元;在此基础上,构造安全除法和安全矩阵乘法组件以及安全电路比较、安全平方欧式距离、安全曼哈顿距离和安全最小值函数;最后,利用设计和构造的安全计算组件和安全计算函数实现了安全K-均值聚类方案。为了使协议具有抵抗恶意敌手的能力,本文使用了无条件安全的消息认证码,通过对消息认证码进行检查,协议能够发现恶意行为并中止运行。本文对所提方案的安全性进行了详细的理论分析,证明方案能够抵抗恶意敌手的攻击,达成了恶意模型下的安全性。最后本文在水平分区和垂直分区的数据集上进行了仿真实验,实验结果表明,本文设计方案的计算和通信成本在可接受的范围内,在不牺牲聚类准确性的前提下,实现了恶意模型K-均值聚类,在聚类效率、安全性和聚类准确性之间达成了很好的平衡。
其他文献
区块链技术具有去中心化、不可篡改、可溯源的特点,将区块链与慈善系统结合可以解决传统慈善系统缺乏公信力、数据造假以及善款难溯源的问题。但慈善组织之间存在信任问题,区块链长时间的运行也会导致慈善数据规模过大,给节点带来存储压力,这些问题需要从区块链的共识和存储两方面进行改进。针对区块链Raft共识机制的优化,提出了基于节点优先级的Leader选举机制,添加校验者节点并将日志提交方式从单步提交变为批量提
“特”在现代汉语中使用频率较高,从古至今,其义项发生了很大的改变。在《现代汉语词典》(第七版)中,“特”有七个义项,这实则是历时语法化链在共时层面上的反映,“特”的语义存在历时演变的过程,其各义项之间存在内在发展联系。当前,词典中对“特”的解释既没有横向的义项派生联系,也缺乏纵向的词义动态变化线索。从语法化角度切入“特”的历时演变,将共时与历时角度相结合,可以较为有效的说明“特”各个义项之间语义发
21世纪以来,代码安全性分析研究成为网络安全的关键基础技术,针对源码的漏洞检测技术取得了长足发展。代码特征发展出基于统计特征、tokens序列、抽象语法树、代码语义图的技术路线;检测算法发展出基于相似性判定、漏洞规则和人工智能的技术路线。基于深度学习的漏洞检测方案极大的解放了安全专家工作量,具有更好的泛化能力,但现有检测模型高度依赖数据集,对复杂漏洞检测精确度不高,严重制约漏洞检测技术的实际应用。
在海量的大数据信息为人们带来了各种便利的同时,随之而来的是网络安全环境和攻击方式变得越来越复杂。这使得传统的入侵检测方式的准确性和有效性大大降低。因此,如何识别在大数据流中的入侵行为成为了当前入侵检测系统的一大挑战。针对当前面向大数据环境的入侵检测难以完成高维度特征学习和用户行为的精准检测等问题,提出了一个面向溯源图的高效精准入侵检测方法,其目的在于根据溯源图的大小和感染程度的不同,利用入侵检测的
《冊府元龜》(簡稱為《册府》)乃宋代四大類書之一,全書共一千卷,規模十分宏大。《冊府》一書編修目的爲“取著歷代君臣德美之事,為將來取法”,征引繁複,選材時多以正史為主,保存了大量的早期珍貴史料,具有重要的校勘學和訓詁學價值。但因《冊府》一書引文不注出處,使得引文的整理研究工作難度較大,學界目前對《冊府》引文的研究尚不充分。《史記》作為二十四史之首,史學價值不言而喻,《冊府》在成書過程中便征引過大量
历史唯物主义指出劳动具有物质基础与社会关系的双重规定性,不仅生产出物质生活资料,同时创生着社会关系。劳动的辩证发展过程就是人类社会进步的现实历史过程。如今,数字时代的全新劳动形态即数字劳动体现了人类劳动在物质规定与社会规定上的新质态,反映着历史唯物主义关于社会发展与人类解放的现实逻辑。数字劳动之于社会发展兼具正向作用与消极效应。在劳动的物质规定性层面上,数字劳动作为高度协作的社会总体劳动极大提高了
在人口政策的持续作用下,近30年来我国家庭规模不断缩小,妇女的总和生育率持续降低,人口增速不断下降,十年内人口负增长趋势明显。虽然我国自2014年起已逐步启动二孩政策,但这无法缓解低生育水平。在现代核心家庭中,父亲参与抚育子女成为趋势,已有文献显示:父职参与有利于家庭规模的扩大和提高生育水平。尤其在二孩政策后,家庭的抚育压力增大,能否履行父亲的职责或许成为影响生育二孩的重要因素。此外,二孩作为三孩
学习投入是影响学生学习成就的重要因素,相关研究表明学习投入受一系列环境因素以及个体心理因素影响。但在个体心理层面,情感因素对学习投入的影响仅在近几年开始受到国内外学者关注。另一方面,随着二语习得研究“情感”转向的深入发展,国内外有学者开始尝试在“控制价值理论”之下探讨外语学习情境下不同学业情绪的产生原因,及其可能对外语学习产生的重要作用。为了提高我国大学生英语学习投入,本研究从学业情绪的“控制价值
在昆明的校园、街头、小店能够偶遇到越来越多的外国留学生,其中大部分来自南亚东南亚国家。不同的社会文化背景下,留学生在昆明学习和生活碰到了哪些障碍?他们在多大程度上能实现来华留学的目的?留学生在求学过程中形成了什么样的跨国社会关系网络?社会关系网络是否促进了互利共赢、文化交流与互鉴的主张?由此,针对以上问题笔者选择云南大学、昆明学院、云南省交通技师学院等昆明几所高校的部分孟加拉国留学生进行个案研究,
随着现在移动互联网的飞速发展,各种各样的无线设备越来越多。在这种环境下,对于无线网络的安全要求越来越高。但是攻击者往往能够通过多种攻击手段伪装成合法节点接入无线网络中,然后破坏、窃听和控制无线网络。为了能够更好地防御这些攻击,需要更加可靠的设备认证技术来识别接入网络中的设备的身份。已有的研究表明,从设备的软件层面或者硬件层面可以提取各种独特的设备指纹。软件指纹不稳定,会随着计算机的配置变化而改变;