关联数据质量控制模型研究

来源 :中国科学院大学 | 被引量 : 0次 | 上传用户:liuya
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
关联数据发展至今规模已十分庞大,其应用技术也愈加成熟,然而影响关联数据发展的数据质量问题却不断增加,其中包括原始数据来源不明、使用权益声明混乱、属性描述不够完整、数据语法错误、SparQL查询不可用等。这些质量问题令数据使用者难以获取准确、有价值的信息,从而使数据集的应用效果大打折扣。  针对关联数据质量问题,人们已开展相关研究,已有研究主要从数据质量评估的角度,依据度量指标对已发布数据集进行质量评价与检测。这些研究虽为高质量数据集选择提供了参考,但对数据集质量的提升帮助不大。本文面向数据管理者的需求,通过分析数据规划、发布及使用维护等各阶段的数据质量影响因素,探索数据质量控制策略及相关技术方法,以便为高质量关联数据发布提供借鉴。  本论文的研究工作具体包括以下三个方面:  第一,根据关联数据质量控制需要,本论文将关联数据发布管理生命周期划分为三个主要阶段:数据规划阶段、数据发布阶段、数据运营管理阶段,分析各阶段数据管理操作特点以及存在的影响数据质量的因素,提出各个阶段对应的质量控制指标、判断规则以及检测实现策略,从而提出一个三段式关联数据质量控制指标模型,构成质量控制的方法体系。  第二,结合关联数据资源的特点,在借鉴相关技术方法的基础上,对三段式关联数据质量控制指标模型中部分关键指标检测技术方法进行深入研究,对数据完整性检测、数据内容准确性检测、关联关系创建与维护以及数据源综合质量评价等关键技术方法提出具体的解决方案。  第三,选取科技文献数据集,针对部分质量控制指标进行测试。再者,参照本体的技术方法,根据三段式关联数据质量控制指标模型结构特点,集成关联数据管理生命周期管理阶段、质量维度、控制指标、判断标准、注意事项等实体对象及相关关系,构建可与数据资源一同发布的应用词表。同时,集成对指定关联数据源的评估结果信息,供数据管理者和数据消费者查询利用。
其他文献
面对世界篮球专业化发展需求,以多年从教经验出发,分析青少年篮球训练中家长、青少年篮球队员、教练及老师的困惑,反思目前困扰我国青少年专业篮球训练的问题以及可选择的解
纵观全国高校各项体育运动比赛,高水平、高素质.但是鲜有湖南高校运动代表队在全国比赛登上最高领奖台,显而易见湖南高校高水平运动队与其他省份还是有一定的差距,排除其他外
我国竞技啦啦操设置联赛机制以来,就设有小团体技巧项目,虽然我国啦啦操运动员大多为女生,但全女子组小团体技巧项目的发展水平,比其他项目相对落后,尤其体现在编排上.在规定
网络环境下,图书馆的信息资源建设呈现多元化发展格局,异构性成为网络环境下信息资源的重要特征。日益丰富的信息资源包含着语义丰富、学科各异、实体多样的知识资源,需要利用集
随着多媒体技术以及Internet的迅猛发展,获得准确的信息显得越来越难。Web信息检索和多媒体信息检索都向传统的检索方法提出了挑战。为使信息检索系统更加有效,使检索结果更
随着互联网技术的发展和计算机的普及,信息技术开始应用到各个领域中去,比如医疗、建筑、教育等等.对于学校来说,教学信息化也是一个大趋势.体育课是提高学生身体素质的课程,
兴趣就是一个人的大脑两半球内的有关部位由于附近已形成特殊的暂时神经联系,因而特别易于感受某类事物的刺激,并且特别易于在这类事物的刺激作用之下,形成最优越的兴奋中心
伴随着信息技术的发展以及手机终端功能的开发和完善,以微博和微信等新兴平台为主的传播媒介,正逐步成为人们获取信息的重要渠道,活跃于科技期刊出版与传播领域。只有应用不断更
运用文献资料法与问卷调查法的有效结合,从学校、学习环境适应、生活环境适应以及人际环境适应三方面出发,对湖南工业大学体育专业新生环境适应的影响因素分析.研究表明,发现
本文通过翻阅大量文献资料,并结合本人多年的田径教学经验,围绕青少年田径训练中意外伤害事故这一常见问题展开了本次研究.首先,文章对青少年田径训练中意外伤害事故成因进行