论文部分内容阅读
伴随着云计算、移动互联网、智能终端等信息技术的快速发展,经济社会运行方方面面的数据被记录下来,大数据的时代已经到来。政府和企业都越来越认识到大数据中所蕴含的巨大的商业、社会和科学价值,同时也激发了国内外的学术界和工业界学者专家对发展大数据应用技术发展的极大兴趣,基于云计算方式的大数据管理与分析逐渐成为一大趋势。只是,现有的大数据研究工作多集中于技术体系研究等方面,并存在大数据组织模型的形式化较低、缺乏异构数据融合度等问题。因此,在大数据资源描述和组织模型、异构异象大数据资源的高效整合、大数据应用形式化建模等方面仍然有很多研究工作有待进行。本文主要研究大数据处理的几个关键技术,以“电子政务建模仿真国家工程实验室”所承担的国家级业务信息服务为应用场景,围绕项目在大数据应用方面存在的现实问题,从实体信息获取、数据有效组织、多维数据检索以及复合条件查询4个方面展开研究。具体研究成果如下:1、实体信息抽取问题研究:针对实体抽取问题,基于使用路径表达式的思想,提出了物联网系统实体提取的P3E框架并探索其实际应用技术。通过研究基于路径表达以及“松弛”和“验证”思想,给出了实体提取问题的形式化定义。同时,作为P3E的一种有效实现,提出了基于高效自动机的IMP2E算法。通过详细的实验研究,证明了该算法可以有效且高效地解决物联网系统数据的实体抽取问题。2、大数据资源组织模型研究:提出了支持多维数据复杂条件查询的大数据资源组织模型。通过借助复杂适应系统(CAS)理论将大数据还原成适应性主体场景活动痕迹,通过定义信息空间,并将刻画痕迹信息的场景、子场景、实体实例标识、消息、时刻、名称项、值项等概念引入到信息空间,构建痕迹信息空间作为大数据资源组织的基础理论模型。3、基于痕迹信息空间的多维数据检索:在将痕迹信息空间作为大数据资源组织管理模型的基础上,研究了基于场景、实体实例、时刻等进行切片规则的大数据分区存储模型,构建全局索引和局部索引两层索引结构,进行多维数据检索模型设计。通过与传统的遍历检索和层次检索的比较分析,说明了该方法在支持多维数据检索方面具备可行性和有效性。4、复合条件查询方法研究:基于痕迹信息空间,以空间的约束条件来刻画复合条件查询问题的查询条件,以域来刻画复合条件查询问题的查询结果,给出了基于痕迹信息空间的复合条件查询问题的定义。并在此基础上,完成了复合条件查询方法的形式规约,给出了复合条件查询方法的系统模型。通过实验研究,证明了该方法的有效性。