论文部分内容阅读
随着大数据时代的到来,数据对于国家稳定和社会发展的重要性日益显现。为了让数据发挥更大的价值,降低人们获取数据的难度,各类数据共享平台也由此诞生,但是传统的数据共享平台都是采用中心化的设计思想,将所有的数据汇聚到数据库中,而且主要针对的是结构化数据。针对非结构化数据却没有一个很好的共享方案,同时数据也具有权属问题,但国家目前对数据的权属问题重视度却不够,法律层面也有相应的缺失,如何连接人与数据以及数据的权属也是急需处理的问题,但是传统的数据共享方案都没有考虑到。而目前很前沿的区块链技术是去中心化的设计思想,但是其应用领域和方向都受限,不适用于所有的数据。Handle技术也提供了非结构化数据的统一管理和共享的方案,但也有其应用的局限性和不足。针对大数据时代非结构化数据共享的问题,DOA给出了很好的解决方案。DOA是面向数据的体系结构,采用“面向数据和以数据为核心”的思想,主要分为数据注册中心(DRC),数据权限中心(DAC)和数据异常中心(DEC)三大部分。数据注册中心是核心模块,采用统一的数据注册标准构建数据的元数据信息注册表,通过元数据信息注册表实现数据的统一管理和对外提供数据服务;数据权限中心是关键模块,通过对数据进行“天生加密,授权使用”的机制,保证数据的权属,安全问题,建立人与数据的权属关系;数据异常中心是重要模块,结合数据权限中心来保证数据的安全,实现数据的追踪溯源等问题。本论文的研究内容如下:(1)从DOA面向数据的结构体系出发,结合本论文的研究内容,在已有的研究基础之上,研究DRC数据注册中心的非结构化数据的元数据信息注册规范。(2)研究相关元数据信息自动提取方法,结合手动录入的元数据信息,研究单条元数据注册方法和自动实时注册方法,并做可视化的实现。(3)基于原生的SimHash算法和TF-IDF特征提取算法,结合IK中文分词器和SHA-256散列算法,研究非结构化数据的文本类型数据的相似性判断。(4)分析现有流行的FastDFS和HDFS两种文件存储系统各自的优缺点,研究一种优化的,结合两者优势的数据备份系统。(5)基于Mybatis和Spring框架,研究DOA非结构化数据共享平台的实现方案,对比传统的“中心化”的解决方案,增加“无中心化”的解决方案。本论文的主要研究成果和创新点如下:(1)参考都柏林元数据,提出了DRC非结构化数据的元数据注册规范,针对DOA的数据注册,提出了两种数据注册解决方案,实现了不依赖具体软件环境的数据注册可视化工具。(2)提出了一种改进的SimHash算法,在原算法基础上,加入了IK中文分词器,使SimHash算法支持中文文档,同时改进了特征提取方法,使用了TF-IDF算法代替原生的词频统计,使特征提取更精确,并改用SHA-256散列算法作为SimHash内部的hash函数,最终提高了算法的精度。(3)基于DOA面向数据的思想,在DRC数据注册中心和数据备份中心之上,提出了非结构化数据共享解决方案,在传统的“中心化”思想的基础上,通过实现的DRC数据传输小程序,实现了“无中心化”的设计理念。