一种面向聚类的对数螺线数据扰动方法

来源 :第29届中国数据库学术会议 | 被引量 : 0次 | 上传用户:lala_
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
  面向挖掘应用的隐私保护数据发布要求对数据集进行隐藏的同时维持数据的挖掘可用性,数据扰动是解决该问题的有效方法。现有的面向聚类的数据扰动方法难以兼顾原始数据个体隐私和维持数据聚类可用性,对此提出了一种基于对数螺线的隐私保护数据干扰方法。通过构建面向聚类的隐私保护数据扰动模型,利用对数螺线对原始数据进行扰动隐藏,维持原始数据的邻域关系稳定,实现数据集聚类可用性的有效维护;进一步提出多重对数螺线扰动的策略,提高隐私保护强度。理论分析和实验结果表明:文中方法能够有效地避免数据隐私泄露,同时维持数据的聚类可用性。
其他文献
指出不确定性和模糊性在时空语义上的区别;提出不确定移动对象的模糊时空范围查询问题,即查询条件中时间、空间范围的外延是模糊的,无清晰的边界,而目标对象的位置不确定;用模糊集表示模糊查询条件,概率密度函数表示移动对象在各自不确定区域内的可能位置分布;给出了不确定对象关于模糊查询条件匹配度的计算方法;设计了基于α截集的无效对象排除和有效对象确认规则及查询算法。算法规则适用于任意概率密度分布。现有的确定或
空间查询处理已经广泛地应用于基于位置的服务、设施选址等领域。提出一种新的空间查询:主题相关区域查询(topic-relevant region queries,T2R),该查询可以用于位置选址等空间决策分析。给定一个由空间特征对象集合R定义的主题T、查询窗口q,T2R查询返回不交叠的k个与主题最相关的区域,区域与主题的相关程度由区域内特征对象的数量结合其重要性进行计算。为了有效处理T2R查询,提出
近年来,图模型广泛应用于生物信息、计算化学、语义网等领域。目前,“过滤-验证”机制被广泛用于子图包含查询,即首先根据图数据的特征构造索引,然后根据索引产生候选集,最后对候选集中的每一个图进行子图同构验证。在这类算法中,“过滤”阶段是关注的重点,力争过滤掉更多的数据;而“验证”阶段则只是单纯地进行候选图子图同构检测,并没有进一步优化查询性能的可能。因此,提出了一种新的子图包含查询的迭代处理机制:“选
频繁项查询在网络监控、网络入侵检测、关联规则挖掘等方面是一项非常重要的技术.该技术在静态的不确定数据中已经得到了深入的研究.但随着数据流特征和不确定性表现的日益明显,在不确定数据流环境下的查询已经成为一项新的研究课题.因此基于数据流普遍采用的滑动窗口模型,提出了一种高效的概率Top-K频繁项查询算法sTopK-UFI.该算法避免了每次窗口更新都重新计算查询答案,而是利用现有的计算结果进行增量更新,
提出一种基于建模同步动力学行为的Kuramoto模型的网络社团发现算法SYN.该方法首先将网络中节点对象按照链接密度关系进行排序,每一个节点对象用一个一维坐标值表示,从而将网络数据矢量化.在聚类过程中,采用同步聚类原理对一个局部邻域内的对象实现同步,最终同步到一起的节点形成一个社团.通过不断扩大节点同步的邻域半径,可以得到不同分辨率的多种社团划分结果.结合社团模块度函数,可以自动选择最佳聚类结果.
对于部署在恶劣环境中且无法放置Sink节点的无线传感器网络,节点的能量有限且易于损坏。每个节点为了避免自己死亡后数据丢失,需要将数据分发到网络中其他一部分节点上进行保存。但是,由于节点只知道自己邻居的信息,同时存储容量有限,因此如何有效地进行数据分发和存储是一个具有挑战性的问题。提出一个基于自适应概率广播的数据保存协议APBDP来解决这个问题。在APBDP中,节点通过一种自适应的概率广播机制分发数
子序列的相似性查询是时间序列数据集中的一种重要操作,包括范围查询和k近邻查询。现有的大多算法是基于欧几里德距离或者DTW距离的,缺点在于查询效率低下。文中提出了一种新的基于LSH的距离度量方法,可以在保证查询结果质量的前提下,极大提高相似性查询的效率;在此基础上,给出一种DS-Index索引结构,利用距离下界进行剪枝,进而还提出了两种优化的OLSH-Range和OLSH-kNN算法。实验是在真实的
当前,在OLTP数据库的应用场景中,事务通常由一些简单的查询构成,尤其是大量存在的基于主键的读写事务。在这种应用场景下,逻辑锁能够避免复杂的逻辑判定,通过基于简单比较的语义封锁来防止不可重复读、幻象读等问题,从而实现事务的串行化调度。为了提高事务读写的并发能力,针对当前OLTP应用的特点,在谓词锁的基础上进一步细分锁粒度,提出属性谓词锁的理论,并在给定的复杂度内讨论了该理论在上述应用场景下的可行性
作者研究了时间依赖图下,具有时间限制的费用代价最优路径的查询问题。目前有关时间依赖图上的最短路径查询的研究工作解决的是最短旅行时间问题( TDSP),这些工作都利用了以下性质:到达某个顶点的最早时刻可以通过到达其邻居的最早时刻计算得出。然而,在计算具有时间限制的费用代价最优路径时,该性质并不成立。因此,目前解决TDSP问题的方法均不能解决文中面对的问题。对此作者提出一个新的算法用于计算时间依赖图模
紧密子图发现在许多现实世界网络应用中具有重要的研究意义.提出一种新的紧密子图发现问题——Top-k属性差异q-clique查询,找出图中k个节点间属性具有最大差异的q-clique.属性差异q-clique是一种结合图的结构特征和节点属性的紧密子图,在作者合作关系图数据中,该查询可以发现属性(如研究领域或所属单位)上不同的具有紧密合作关系的团队.给出了q-clique的属性差异度量,证明了该问题为