基于语义的数据交互模型与发现方法研究

论文部分内容阅读

随着信息技术的变革,云计算、物联网、工业4.0、互联网+、电子商务以及移动互联网等新技术应运而生,网络空间中的数据规模及表现形式逐年激增,当今社会已步入了网络化的“大数据”时代。目前,网络数据已经渗透到当今社会的诸多领域,发挥着越来越重要的作用,引起了学术界、产业界及多国政府的广泛关注。网络空间中数据资源具有大数据的“4V”特征,即“数据量大(Volume)、生成速度快(Velocity)、形式多样化(Variety)、价值巨大但价值密度低(Value)”,基于精确匹配的传统网络数据发现方法及交互手段很难智能高效地发现并获取用户所需的数据资源。因此,实现基于语义的网络数据智能发现与交互具有重要现实意义及广阔应用前景。本文在系统归纳总结现有工作的基础上,重点研究基于语义的网络数据协同交互模型及基于语义的网络数据组织与发现方法,主要研究成果如下:(1)提出一种基于语义的网络数据协同交互模型。随着信息技术的发展及“万物互联”的网络大数据时代的到来,如何高效智能地发现、传输、组织及处理用户所需的网络数据资源已成为一个严峻挑战。为了实现智能高效地网络数据发现与交互,本文提出了一种基于语义的网络数据协同交互模型。通过定义协同通道、协同元和协同体,模型支持多种数据交互方式和对网络数据的语义理解能力,且可在网络内部完成复杂的数据交互控制功能,实现了网络数据的智能发现与灵活交互;模型支持数据交互行为的图示化表示,可以通过流图的形式实现对复杂网络数据交互系统的显式设计;通过定义协同通道和协同元的行为语义,模型可以严格验证模型设计和系统实现的一致性。利用本模型可以根据实际需求灵活地设计不同功能的网络数据交互系统,本文实例化设计了同步数据语义交互系统、异步数据语义交互系统及软件定义的网络数据语义交互系统,演示了利用本模型可以设计智能主动灵活的网络数据交互系统,进而满足网络用户丰富的应用需求。语义协同元可以智能识别表现形式各异的网络数据的语义信息。通过将多种表现形式的网络数据统一映射到高维特征空间,语义协同元可以利用距离信息发现与用户查询语义相似的数据资源,进而实现网络数据基于语义的智能发现与交互,在基于语义的网络数据交互系统中具有重要意义。(2)提出一种基于哈希的数据语义组织与发现方法——iHash。传统基于精确匹配的数据发现方法不能智能识别网络数据语义信息,为了实现语义协同元基于数据语义智能识别发现网络数据的功能,提出了一种基于哈希的数据语义组织与发现方法——iHash。iHash方法首先将表现形式各异的网络数据统一表示为高维特征向量,并利用哈希的方法将高维特征向量处理成统一维度的高维向量,进而将其投影为高维特征空间中的高维点集合;然后在高维特征空间中对数据对象(高维点)进行聚类划分,并将聚类得到的数据簇转换为一系列边长为单位长度的高维超立方体形状的数据子空间;接着利用金字塔方法将高维数据点映射到一维空间并利用B+-tree为数据集构建高维数据索引;最后实现基于数据语义的相似性查询。实验结果表明,iHash方法具有较好的相似性查询效率。(3)提出一种基于主成分分析的数据语义组织与发现方法——iTree。网络数据的“4V”特征导致了特征空间维数庞大,进而容易诱发“维度灾难”问题。为了克服“维度灾难”问题,保证在特征空间中发现语义相似的数据对象的效率,提出了基于主成分分析(PCA)的数据语义组织与发现方法——iTree。iTree方法利用PCA方法对高维特征空间进行降维处理以消除“维度灾难”的影响,并有效消除了噪声及冗余干扰。同时改进iDistance方法以构建高维数据索引,使之能够更加高效地过滤语义无关的数据对象。高维索引创建的具体步骤为:首先对高维特征空间中数据对象进行聚类处理得到一系列数据簇;然后针对每个数据簇,根据数据对象相对聚类中心的位置关系将数据簇进一步划分为一系列数据子空间,利用距离信息将不同数据子空间中数据对象映射到一维空间中的不同一维区间;最后利用B+-tree组织数据对象以构建高维数据索引。利用iTree可以在基于语义的数据相似性查询过程中有效缩小查询范围,进而实现语义协同元基于数据语义智能发现数据的功能。最后的实验数据验证了该方法的有效性。(4)提出一种基于随机投影的数据语义组织与发现方法——iPyramid。针对高维特征空间中数据分布稀疏的特点,受稀疏优化和压缩感知理论的启发,提出了基于随机投影的数据语义组织与发现方法——iPyramid。iPyramid方法采用随机投影技术对高维特征空间进行语义信息无损的空间降维,保证了降维前后数据语义的一致性。同时为了有效过滤语义无关数据,iPyramid方法为数据对象建立数据分布自适应的高维索引:首先对特征空间中数据对象进行聚类处理得到一系列数据簇;然后进行数据转换得到一系列规格的数据子空间,并采用类金字塔技术将不同数据子空间中高维数据对象映射到不同的一维区间得到数据索引;最后实现了基于数据语义的相似性查询。实验结果表明,iPyramid方法较传统方法具有更快的响应时间,在有效消除“维度灾难”影响的同时保证了基于语义相似性查询的准确性,可以实现高效的基于语义的数据智能发现。

其他学术论文