基于文件相似性分簇的重复数据消除模型

来源 :计算机应用研究 | 被引量 : 7次 | 上传用户：Vivian496

【摘要】

：

为解决现有提高重复数据消除系统吞吐量方法的局部性依赖和多节点依赖问题,提出了一种基于文件相似性分簇的重复数据消除模型。该模型将传统平面型索引结构拓展为空间结构,并依据Broder定理仅选择少量最具代表性的索引驻留在内存中;同时对索引进行横向分片并分布到完全自治的多个节点。实验结果表明,该方法能有效提高大规模云存储环境下重复数据消除性能和平均吞吐量,且各节点数据负载量均衡,故该模型可扩展性强。

【作者】

：

王灿秦志光王娟蔡博

【机构】

：

电子科技大学计算机科学与工程学院,网络与数据安全四川省重点实验室,成都信息工程学院网络工程学院

【出处】

：

计算机应用研究

【发表日期】

：

2012年05期

【关键词】

：

云存储重复数据消除吞吐量文件相似性分簇负载均衡 cloud-storage deduplication throughput file-simil

【基金项目】

：

教育部培育基金资助项目（708078）, 国家自然科学基金资助项目（60873075 60973118）

下载到本地 , 更方便阅读

下载此文赞助VIP

声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架

论文部分内容阅读

其他文献

滞后神经网络新的时滞相关无源判定准则

研究了一类含有时变时滞的神经网络无源分析问题。通过将时滞区间分解为两个子区间和构造新颖的Lyapunov泛函,得到了基于LMIs(线性矩阵不等式)形式的时滞相关无源的新准则。这个新准则推广了一些已有的结果,并且具有更少的保守性。最后,数值例子和仿真验证了结论的有效性。

期刊

时滞神经网络线性矩阵不等式无源time-delay neural networks LMIs（linear matrix inequalities）

污染物减排预测的灰色Markov组合模型与算法

为了科学准确地预测全国污染物排放量,根据污染物排放受多种灰色因素影响及污染数据采集具有随机波动性的特点,将灰色预测和Markov链相结合,利用灰色系统模型预测污染物排放量的整体趋势,Markov链作为传感器检测系统状态的随机波动变化,并对模型进行实时修正改进,在此基础上,提出了一种基于改进灰色Markov链的污染物减排预测方法。最后以全国二氧化硫排放量为例,对模型的预测精度和有效性进行了分析。结果

期刊

污染物排放量灰色系统马尔可夫链实时修正预测pollutant emission volume gray system Markov chain

融合链接文本的增量联合主题模型

在基于链接的概率隐含语义分析的基础上提出一种融合文本链接的增量方法进行主题建模。首先在原有网页集上进行主题建模;然后随着网页的结构和内容动态变化,利用一种合理的更新机制更新模型参数,从而高效快速地处理在线网页流的动态变化。此外,提出一个自适应非对称学习方法融合文本与链接模态的隐含主题。对于每个网页,它在两种模态上的主题分布通过加权进行融合,而权值由该网页的特征词分布的熵值确定。由于融合之后的概率结

期刊

主题模型增量学习链接—概率隐含语义分析自适应非对称学习自适应增量链接—概率隐含语义分析topic models incremental learni

云计算下的数据存储安全可证明性综述

云计算的数据服务外包可以减少数据所有者本地的存储和维护压力,然而用户会因此失去对数据可靠性和安全的物理控制。于是如何确保云中数据的安全就成为了非常有挑战性的任务和难题。在全面研究云计算数据存储安全现有成果的基础上,介绍了云计算数据存储的基本架构,并从可检索证明和可证明数据拥有两个角度分析了相关研究方案的发展,从公共认证、同态认证、数据动态化、隐私保护、批审计和多服务器环境得方面讨论了协议的功能设计

期刊

云计算数据存储安全可检索证明可证明数据拥有cloud computingdata storage securityproofs of retriev

基于用户行为分析的文献阅读价值评估方法

综合文献自身客观价值和相对于查询用户的主观价值,提出了基于用户行为分析的文献阅读价值评估方法。首先,分析用户行为并构建下载文献标题的潜在语义空间,计算文献与下载文献的标题语义相关性,计算文献摘要、关键词中出现下载文献标题词的频次,进而计算其与用户行为的相关性;其次,采用期刊影响因子、论文加权被引频次、时间因子等指标,定量评估文献的自身价值;最后,综合主客观因素定量评估的结果,评估文献的阅读价值。实

期刊

用户行为分析文献阅读价值潜在语义索引文献分析文献评价user behavior analysis literature reading value

基于模板匹配与塔式分解的蛋白质结构域分类

首先构造结构域的距离矩阵灰度图像;其次建立典型二级结构的距离函数,并分析所呈现的灰度模式;然后基于模板匹配和塔式分解,提出了结构域特征;最后在结构类和折叠子两个层次实施结构域分类。本方法在第一种验证策略的分类精度分别为90.7%和74.6%,使用第二种验证策略的为93.8%和78.7%。相比其他方法,具有更高分类精度和更低的特征维数,说明本方法更有效。

期刊

结构域距离矩阵模板匹配塔式分解图像处理分类structural domain distance matrix template match p

基于随机灰色蚁群神经网络的近期公交客流预测

为了科学准确地预测近期公交客流量,根据近期公交客流量预测受到多因素影响以及非线性的特点,利用随机灰色变量描述预测系统的不确定性,建立了随机灰色预测模型以及基于蚁群算法的递归神经网络模型,在此基础上,提出了一种基于随机灰色蚁群神经网络的近期公交客流量预测方法。最后以铜陵市为例,对模型的预测精度和有效性进行了分析。结果表明,基于蚁群算法的递归神经网络模型的预测精度不但高于其他单一预测模型,而且明显优于

期刊

城市交通灰色模型神经网络蚁群优化算法公交客流预测urban traffic gray model neural network ant col

一种优化的AP-CAPSA中文文本结构分析算法

从段落向量空间模型、特征词权重等多个侧面分析比较了已有的文本结构分析算法,提出了优化的AP-CAPSA算法;给出了算法性能的评价准则,并在不同的语料集合上进行了测试。实验表明该方法能够更有效地反映文本的结构,为中文自动摘要系统奠定了重要的理论基础。

期刊

文本结构中文自动摘要段落向量空间模型特征词权重评价准则text structure Chinese automatic summarization

一种异构环境下的基于MapReduce任务调度改进机制

针对在异构环境下采用现有MapReduce任务调度机制可能出现各计算节点间数据迁移和系统资源分配难以管理的问题,提出一种动态的任务调度机制来改善这些问题。该机制先根据节点的计算能力按比例放置数据,然后通过资源预测方法估计异构环境下MapReduce任务的完成时间,并根据完成时间计算任务所需的资源。实验结果表明,该机制提高了异构环境下任务的数据本地性比例,且能动态地调整资源分配,以保证任务在规定时间

期刊

MAPREDUCE调度算法资源预测数据放置异构环境MapReduce scheduling algorithm resource prediction

软件演化过程中运行实例的在线可信演化

为了提高演化的实用性,研究了演化过程实例的在线迁移,并采用高效的过程继承技术来检验实例的可迁移性。过程继承技术虽然很适合用来检验可信过程的可迁移性,但其局限性较大,在多色集合的相关理论基础上,提出了基于基本结构的Petri网分解方法并证明了这种分解方法符合Petri网的一些基本且重要的性质,用这种方法使不能按原计划一步迁移的多个过程分解开来多步迁移并尽可能保证其并行性。这种改进的过程继承技术提高了

期刊

软件演化过程演化可信演化实例迁移software evolution process evolution trustworthy evolution i

基于文件相似性分簇的重复数据消除模型

其他学术论文