论文部分内容阅读
随着大数据时代的来临,出现了大量数据开放平台。数据开放平台让数据真正流动了起来,从而在不同用户之间形成了数据供应链。数据供应链为用户提供各式各样的数据服务,打破了数据孤岛,加深了企业间的合作,使得数据产生更大的价值。然而,数据在平台内和平台之间的流转过程是极其繁杂的,如果想利用这些数据供应链,需要梳理清晰数据流通过程中繁杂的关系。除此之外,用户在选择数据供应链时,数据平台上存在着大量功能相似、服务质量不同的数据供应链,由于缺乏数据供应链QoS判断和择优的标准,用户很难选择出符合预期的服务。再者,数据供应链在为用户提供服务过程中,由于服务数据海量性、多态性以及动态性等特点,容易造成数据供应链运行效率低、节点服务失效等问题。针对上述问题,本文提出一系列的新模型和新方法:(1)针对多数据平台环境下构建数据供应链模型问题,借鉴和改进了 W3C提出的数据溯源模型标准PROV,提出了数据供应链信息模型,并设计了一种数据供应链节点数据生成算法,该算法使得各个数据平台可以按照统一规范记录用户在处理数据时产生的数据流转信息。进而,针对复杂数据供应链构建效率优化问题,提出了一种基于摘要式的数据供应链层次化管理方法,首先通过对表征中间版本的节点记录进行归并化处理,实现节点记录的多层次划分与存贮优化,进而提出了一种面向多层次数据供应链的查询算法,该算法根据用户需求,通过分层查询机制,搜集、整合不同数据平台的查询结果,实现数据供应链的层次化构建。(2)针对数据供应链QoS预测问题,提出了一种数据供应链QoS预测模型,通过引入响应时间、调用成本、正确性和数据新鲜度等评价指标,从多个角度刻画数据供应链的服务质量,在此基础上,提出了针对各种数据供应链结构的QoS聚合计算方法。然后,研究了数据供应链查询驱动和周期驱动两种工作模式,提出了一种基于用户上下文环境的数据供应链QoS预测方法,该方法通过用户上下文环境,获得数据供应链当前的实际运行状态,进而实现对数据供应链QoS的准确预测。(3)针对数据供应链节点运行模式组合优化问题,首先考虑了数据供应链QoS与节点运行模式之间的相关性,进而从服务请求者和服务提供商两个角度构建目标优化模型,来平衡数据新鲜度、命中率和成本之间的关系。然后,为求解此问题,提出了一种基于改进蚁群系统的节点运行模式组合优化算法,该算法通过为每个节点选择合适的运行模式,使得组合后的数据供应链QoS值在满足QoS约束条件下到达最优。(4)针对数据供应链中服务失效节点的替换问题,首先提出了一种数据供应链相似性判别方法,该方法通过节点间的名称相似性和文本描述相似性来识别和提取关键转折点,以此为依据,对原始数据供应链进行划分,构建基于子链划分的数据供应链特征模型。进而,利用基于多维特征的相似性计算方法测量子链之间相似性,并引入面向数据供应链的层次聚类算法,得到一组与目标节点功能相似的查找结果;然后,面对大量的相似性查找结果,提出一种基于优化选择的子链推荐算法,该算法通过计算得到子链替换后数据供应链的全局QoS,并依此对可替代子链进行排序,选取最优的替代子链作为最终的替换方案为用户进行推荐。综上,为了进一步验证上述方法在真实环境中的应用效果,我们设计并实现了一个数据管理平台原型系统对所有关键技术进行验证,分析所提方法的性能,取得了理想的效果。