基于深度学习的科技数据复用研究

来源 :石家庄铁道大学 | 被引量 : 1次 | 上传用户:atian_net
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
随着计算机领域的发展,科技类数据的结构趋向于复杂,在数据整合的过程中,数据重复的比率日趋增高。数据复用技术是解决当前数据管理中节省存储空间、提高数据利用率等问题的有效手段。本文依托“河北省科技攻关项目科技大数据标准化处理与应用系统研发”(172110113D)和“河北省科技创新大数据公共平台”项目,提出了一种基于科技数据相似性分析的数据实体关联映射复用方法。首先针对科技数据中不同数据集的数据维度进行分析,建立相似维度组对;在此基础上进一步计算实体数据维度值相似率,进而建立数据实体之间的关联映射关系,最后进行标准化并存储,达到科技数据复用目的。论文的主要研究工作如下:(1)基于深度学习的科技数据相似维度组对的优化分析建立了一种维度权重量化机制,对数据维度进行权重分析,筛选可复用维度。针对不同科技数据集的维度,进行相似度匹配分析,建立不同数据集之间的相似维度组对;运用深度学习算法进行训练,获得最优相似维度组对。(2)科技数据实体关联映射的构建与标准化根据数据集之间形成的相似维度组对,进行不同数据集之间的数据实体关联映射分析。相对于传统的以查询中间结果为数据复用对象,本文从数据实体之间建立的关联映射出发,对相似维度组对下数据实体维度值的相似度进行计算,设定相似阈值,根据计算结果判断数据实体是否相似,是否可复用。可复用数据实体之间建立关联映射关系,并进行标准化。(3)科技数据复用结果的列式存储采用列式存储对科技数据复用分析的结果进行存储。相较于传统的行式存储,列式存储是以键值对形式,即<key-value>方式进行数据存储。复用数据整合过程中,其维度往往是非固定,传统的行式存储难以解决这个问题,而列式存储的<key-value>结构正好与“标准维度-标准维度值”形式相符合。同时,列存储结构本身也具有控冗余特性,能够提高数据复用效率。
其他文献
研究了基于B/S方式的港口集装箱信息管理系统的实现,对其核心设计技术进行了深入探讨,并对其安全性做了简要闸述.
介绍玻璃窑炉烟气净化方法并以实例说明其技术设计特点,对其进展及应用前景进行分析。
经济社会高速发展的同时,人们不再满足于病后求医问药,而是选择从源头预防疾病,疫苗是实现这一健康需求的有效手段之一。据此,着眼于疫苗流通,对比两版《疫苗流通和预防管理
紫外光(UV)固化油墨是目前在印刷行业中被认为是环保、绿色、可持续发展的油墨。它具有很多的优越性,是未来油墨发展的大趋势,正被越来越多的印刷企业所使用。胶印油墨是UV固化油墨在各个印刷方式中市场接受度最高的,所以如何加快UV胶印油墨固化速度成为油墨生产厂商重点研究的内容之一。UV胶印油墨固化速度的影响因素有很多,可以分为内因和外因,外因主要是指工艺参数,包括光源、氧阻聚等因素,内因则是指油墨各组成
关联交易是公司经营过程普遍存在的经济现象,由于它特殊的交易条件,对公司经营存在重要影响。关联交易引发的财务丑闻频频见诸报端,也使关联交易备受学术界的广泛关注。但目
伴随中国经济的不断增长,商业银行信用卡业务也实现了飞速发展。各商业银行不论是发卡的数量还是消费的金额均大幅增长。同西方发达国家相比,信用卡业务在中国开展比较晚,各项规章制度以及相关流程还有许多欠缺,信用卡业务风险管理压力巨大。而且,受商业银行利率日益市场化、客户需求日益多样化再加上信用卡产品缺乏明显差异、经济处于下行周期、违约率增加等因素的影响,导致信用卡业务风险管理面临诸多挑战。商业银行信用卡业
进入骄阳六月,一切事物似乎都随着气温的上升而变得火热起来.对于目前的中日航线集装箱运输市场而言,一场"战争"正如火如荼地进行着,那就是船公司之间在不断地恶性杀价.
文章采用Lorenz曲线和Gini系数等研究方法,从人口和地理分布的角度对苏南现代化建设背景下江苏省的卫生资源(床位数、卫生机构数、医生及护士人员数)的配置进行了系统分析.研究
东亚同文会是近代中日关系史上非常重要的一个机构,其表面上是日本民间自发组织的对华教育和舆论机关,实际上则是由日本政府在背后支持的半官方组织。东亚同文会在不同时期,