基于FP-Tree重构事务数据集的关联规则隐藏

来源 :第二十五届中国数据库学术会议(NDBC2008) | 被引量 : 0次 | 上传用户:sunjuanhuahard
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
随着数据挖掘技术和机器学习算法的进步,隐私保护问题越来越受到人们的重视.关联规则隐藏属于隐私保护中的知识隐藏.提出了一种基于FP-Tree重构事务数据集的关联规则隐藏算法,通过采用模式添加和模式删除的方法对FP-Tree的结构进行调整,再由调整过的FP-Tree反向重构事务数据集进行发布,从而实现对敏感关联规则的隐藏.
其他文献
Top-k空间偏好查询根据空间对象周围的特征性质对空间对象进行等级评价,并返回具有最高等级评价的k个空间对象.现有的Top-k空间偏好查询算法大多利用R树结构为空间特征数据建立索引.考虑使用网格索引组织二维空间数据,并提出基于概念划分的Top-k空间偏好查询算法,本文分别设计实现了基于范围查询和NN查询两种方式的Top-k空间偏好查询算法TopRAN-G与TopNN-G.通过真实数据集测试结果表明
在语义网中,信息以及信息之间的关系使用元数据和本体库来表示,RDF和RDF Schema是W3C规定的用于表示元数据和本体的标准.由于RDF数据具有图的结构特点,存储和查询比较复杂,没有一个统一的标准,因此如何有效地存储和查询RDF数据成为了研究的一个热点.讨论了PDF数据存储的难点和问题所在,提出了一个存储RDF数据的算法。基于LUBM生成的数据,我们设计了不同复杂度和结构的查询,以检验不同算法
传统聚类以距离作为相似度计算依据.然而,有时对象与对象之间不具有相近的物理距离,但却存在相似的一致性模式.因此,采用基于模式的聚类方法解决此类问题。但模式聚类的一般方法效率较低。根据等差模式对应的数据集自身的性质,提出了一种新的等差模式聚类改进算法,与原有的等差模式聚类算法比较,此算法具有更好的时间效率。
基于Web 2.0的社区系统在互联网上的出现引出了全局表的概念(universal tables),并使得大规模稀疏数据表(large sparse table,LST)得到了广泛的应用。一个LST通常包括数千个以上的属性和百万条以上的记录,并且拥有大量的未定义值.而相似性查询是社区管理系统中最常见的查询.除了一种基于属性的倒排索引之外,目前针对LST的研究只集中在数据表的存储方法上.已有的倒排索
聚类是数据挖掘的重要组成部分;基于划分的聚类算法有近线性时间复杂度的优点,基于密度的聚类算法能发现任意形状的聚类.提出基于划分和密度的聚类算法CUPD(clustering using partition and density),它首先用基于划分的算法对数据进行分类,然后用基于密度的算法进行类的合并.理论分析和实验证明了CUPD算法保持了基于划分和基于密度聚类算法的上述两个优点.
个性化服务在现代服务业中越来越重要,进行用户日志挖掘是实现个性化服务的一种有效方法。设计了一种基于构件的通用日志挖掘框架ULMF,在ULMF中可嵌入通用挖掘构件,也可嵌入可定制的专用挖掘构件,这使得框架具有很强的可扩展性。为了验证框架的可用性,基于该框架实现了一个通用日志挖掘构件以及专用的相似用户挖掘构件,并对一个会议室预订系统的日志进行了分析.最后给出了进一步的研究方向。
在Bagging和Boosting方法的基础上,提出一种改进的支持向量机集成方法以进一步提高集成的泛化性能.给出一种基于混合核函数和相关参数并行扰动的个体支持向量机生成方法,有更多的模型扰动参数可以进一步提高集成的差异度,相应的集成方法分别命名为HK BaggingSVM和HKBoostingSVM.另外,当生成一个个体支持向量机后,采用测试方法确保集成的正确率。在标准UCI和StatLog数据集
提出的RNC算法,利用神经网络模型,并结合了概率表示的精确描述,对多关系数据,特别是其中的0-1分类问题进行分类,本文有几个创新的点包括:(1)用数据库中的关系模式作为先验知识来建立神经网络模型,建立的神经网络模型只包含一个隐藏层,隐藏层节点同关系表一一对应;(2)给出了一种打分机制来衡量目标对象属于正类的程度.我们在实际应用数据库和在合成数据库上的实验,表明该算法具有很高的分类精度和可扩展性,此
空间的Co-location模式代表了一组空间对象的子集,它们的实例在空间中频繁地关联.分析了Co-location模式挖掘的实质,在此基础上,提出一种Co-location模式挖掘的新算法,应用蚁群优化的思想在空间对象关系图里搜索Co-location行实例,采用垂直位图对Co-location行实例集进行约简,并基于Trie树存储表示Co-locaton模式的垂直位图,后根遍历Trie树计算参
克服了分段困难、存储困难两大难点,利用了伪周期性的特征,设计了基于伪周期数据流的模式管理方法。主要贡献在于:(1)模式发现,提出了数据流模式之间的距离的定义和计算方法,用来比对不同模式的相似程度;(2)模式组织存储,设计了模式森林(Pattern Forest)来存储模式,并通过其树形结构来反映模式之间演化关系。基于以上方法,实现了数据流模式管理系统,并设计了分析实验,取得了较为理想的实验结果.