论文部分内容阅读
互联网的飞速发展使得我们被大量的信息所包围。大数据是这个信息时代最鲜明的特征,如今全球的数据存储已经进入了“泽它时代”。信息的爆炸式增长给我们带来的问题很多,不仅是存储空间的问题,还有存储模式的问题。多样化的数据无法存储在模式单一的数据库中。近几年,为了解决这种异类数据的存储问题,提出数据空间(Data Space)的概念。数据空间能够淡化数据模式,支持不同类型数据的分布式存储,支持 pay-as-you-go的方式。数据空间作为一种新的数据管理技术,以用户为中心,为用户提供数据管理服务。 数据空间是一个新的研究领域,在数据存储、查询、索引等方面已经有一定的研究工作。但是目前学术研究界对其更新问题的研究还不成熟,并且数据空间中数据源的分布式存储以及数据源的多源异质异构特性使数据空间的更新研究更加复杂。 本文研究了数据空间中数据源的更新策略,确切地说是数据源描述信息的更新策略。完成的主要工作包括:(1)采用模糊哈希的方式对文档内容的变化程度进行分析,确定是否达到需要更新其描述信息的标准。(2)对于文档数据的更新,提出一种重要性与新鲜度相结合的方法,以用户的要求为标准,给不同的文档集合设置不同的更新频率。(3)将数据空间文件夹单独视为一类资源,设计了一种检测其增删改变化的算法。(4)采用时间序列预测的方法,构建ARIMA模型来预测网页的改变频率。 本文重点研究了数据空间中的本地数据源与在线数据源的更新策略。基于ARIMA模型,提出了预测数据源改变频率的方法。针对不同数据源制定相应的更新策略,从而保持数据空间的新鲜度维持在较高的水平。