【摘 要】
:
随着语义网的不断发展,RDF(Resource Description Framework,RDF)数据已被广泛用于各个领域的知识建模与数据重用,导致其数据量呈现出爆炸式的增长。RDF数据所形成的RDF图知识库(简称为RDF图)也从刚开始的仅数百万条数据增长至上亿条数据,其中开放关联数据(Linked Open Data,LOD)截止到目前已拥有超过620亿条链接数据。各领域RDF数据的不断增长,
论文部分内容阅读
随着语义网的不断发展,RDF(Resource Description Framework,RDF)数据已被广泛用于各个领域的知识建模与数据重用,导致其数据量呈现出爆炸式的增长。RDF数据所形成的RDF图知识库(简称为RDF图)也从刚开始的仅数百万条数据增长至上亿条数据,其中开放关联数据(Linked Open Data,LOD)截止到目前已拥有超过620亿条链接数据。各领域RDF数据的不断增长,导致很难从全局上对RDF图进行探索。每个大型的RDF图通常包含不同的数据,这也加剧了用户的查询困难。为了避免用户信息过载且在有限空间内呈现所需信息,就需要进行RDF图摘要(RDF graph summarization)。RDF图摘要是通过自动生成一个内容简洁且包含关键数据的子图以代替完整的RDF图,它被广泛用于图查询、图结构浏览、图模式发现、图推理等。当前,RDF图摘要是语义网及知识图谱领域的研究热点。虽然RDF图摘要研究已取得了一些成果,但大型RDF图的异构特性导致其摘要方法研究仍然面临着诸多的挑战。如何从海量数据中提取出关键的、具有代表性的数据仍然是RDF图摘要面临的问题。现有摘要方法普遍采用单一方法进行摘要的策略,导致其得出的摘要不具备RDF图的多方面特征,例如从图结构、节点重要性等,从而无法满足各领域的数据重用需求。针对上述不足,本文主要提出了基于用户查询偏好、节点中心性及节点特征的RDF图摘要方法,主要的贡献如下:(1)根据RDF图的SPARQL查询历史偏好,本文提出基于用户查询及节点重要性的RDF图摘要方法。该方法兼顾了RDF图的整体与局部特征。摘要模型通过提取出感兴趣的语义数据,满足用户的个性化SPARQL查询需求。(i)本文基于该摘要模型提出了两种摘要算法:Summary KG和Query Sum KB,并进行实验分析。实验表明算法生成的RDF图摘要提高了用户的查询效率并满足其个性化查询需求,并从一定程度上反映RDF图结构信息。(ii)本文通过在大型RDF图数据DBpedia,YAGO以及Freebase进行实验验证,其结果表明所提出的这两种算法在生成摘要的时间及查询准确度方面的有效性。(2)本文提出了基于节点特征及中心性的方法来摘要RDF图结构,并且把RDF图中的节点关系划分为同特征(same-CS)关系与同型(same-Type)关系。(i)本文基于这两种节点关系提出具备单一特征关系的Sum W算法和同时具备两种特征关系的Sum S算法。(ii)本文通过进一步地计算节点的频繁度与连接系数得出RDF图中中心度高的节点与属性边,并由此提出基于节点特征及中心性的Summary FL摘要算法。(iii)本文使用现有的大型数据AGROVOC,DBpedia,Wikidata以及Linkgeodata进行实验,并把本文提出的算法与其他摘要算法进行实验对比。实验结果表明上述算法能保证摘要的准确性和有效性。综上所述,本文提出了基于用户SPARQL查询及节点重要性、RDF图节点特征及中心性的大型RDF图摘要方法。通过实验表明,本文提出的算法能够保留RDF图结构特征,并能帮助用户提高SPARQL查询效率及快速完成RDF图数据浏览。
其他文献
药物组合在治疗多种复杂疾病中发挥着重要作用,它能从多个治疗方向促进患者健康恢复。与单一药物治疗相比,药物组合治疗不仅能够提高治疗效果,而且可以降低单一药物剂量增加带来的副作用。然而,通过临床实验手段验证成千上万种药物组合的有效性,会消耗大量人力和物力资源。深度学习的迅速发展,为临床医疗数据的挖掘与运用提供了新手段。通过深度学习技术对临床医疗数据加以分析,筛选出潜在有效的治疗药物组合,可以大大减少临
目的 观察护理干预对Leep刀宫颈锥切术治疗宫颈疾病的影响及效果。方法 选取行Leep刀宫颈锥切术治疗的宫颈疾病患者40例,分为基础护理干预组和整体护理干预组各20例。对比两组手术一次成功情况、术后并发症、宫颈长度、疼痛程度、生活质量及护理满意度。结果 整体护理干预组手术一次成功率高于基础护理干预组(P<0.05),术后并发症发生率低于基础护理干预组(P<0.05),护理满意度高于基础护理干预组(
随着互联网技术的快速发展,社交网络作为重要的信息载体,极大程度改变了信息的传播方式,使每个人都能扮演信息的创造者、传播者和消费者,因此,对信息流行度的高效预测成为了研究热点之一。然而,由于内容形式的多样性、网络结构的复杂性以及影响因素的多元性使得预测任务面临众多挑战,如何建立高效的预测模型是亟待解决的问题。通过对相关文献资料的充分调研,本文深入研究并分析了信息流行度的诸多影响因素,运用深度学习技术
瑞幸咖啡在2017年以来发展的三年时间里,一直在吞噬着星巴克和蓝山咖啡等主导的咖啡饮品市场。通过对瑞幸咖啡的分析可以看出,瑞幸咖啡的价值链管理还存在着一些问题,这将会影响到其未来市场核心竞争力的发展。因此,文章利用环境分析和SWOT分析等手段,对瑞幸咖啡的核心竞争力进行了深入的分析,提出相应的策略。希望通过文章的研究,能够对目前市场环境下瑞幸咖啡的核心价值进行进一步的优化,并且为其他新兴行业的企业
随着社会经济持续发展和城市建设不断加快,城市公共交通在提高交通服务运营水平、改善城市居民出行体验上愈发重要。然而在城市公共交通日常运营中,部分地铁站点或公交站点在遭受极端天气后可能引发大范围交通阻塞,导致交通系统结构连通性严重下降。同时,城市公共交通系统存在不平衡发展现象,部分地铁站点或公交站点承载了城市公共交通系统的大部分运量。为提升城市公共交通网络抗毁程度,避免站点故障大幅降低出行效率,优化交
随着大数据智能领域的迅速发展,人类向着信息化社会不断前进和突破,现在已经进入到了现实世界和虚拟世界相结合的时代。如何综合分析不同领域带来的不同体量和维度的信息来提供正确的决策是当前领域发展必须面临的问题。在多类型信息源融合的实际应用过程中,一般都是通过传感器来获得相应的信息,传感器的信息收集是多传感器融合过程中至关重要的第一步,信息源的可靠性收集决定着最终的决策结果是否正确。现实情况中,由于恶劣天
基于2022年“高校考试招生改革引导学生德智体美劳全面发展研究”项目组所收集的“高考改革调查问卷”中40326份高中生问卷,结果显示:高中生对高考选科制度和选科结果基本满意,对高考选科需要多主体共同参与基本认可,认为高考选科利于专业选择与职业规划,部分高中生选科时出现心理焦虑,传统文理分科仍是所选人数最多的组合。同时也发现:高中生对高考选科制度和对未来发展的引导基本满意、对家长参与高考选科的认可度
癌症主要由体细胞基因突变加速积累导致细胞无限增殖引起,癌症研究的一个关键步骤是识别导致肿瘤从正常状态向恶性状态转变的驱动突变和驱动基因。此外,癌症驱动基因往往只在少数生物学通路中发生作用。因此,研究者们开始将关注点从识别驱动基因转移到识别驱动通路。识别驱动通路有助于揭示疾病发生和发展的自然规律,对癌症患者的精确治疗、新的药物靶点和诊断测试具有重要意义。研究表明,多条通路在相同的生命活动和致癌过程中
随着科技的发展和信息化设备的普及,现实世界中实体间联系的多维度属性愈发明显,如社交网络中存在不同的社交平台,分别表示用户不同的社交偏好,具有不同的社交属性,准确表征用户在不同社交平台下多维度的社交行为,对于社交网络的分析研究具有重要意义。由于多层网络独特的分层结构,使其能准确刻画实体间的多维度联系,因而已经逐渐成为建模、分析和研究多关系复杂系统的重要工具。在网络科学中,识别多层网络潜在的社团信息对
随着时代的发展,人们对社会公共安全的需要也不断提高,越来越多的学者投入到相关领域的研究中。行人重识别作为一项人工智能技术,被广泛的运用到城市的安防系统中,其主要研究内容是在跨设备下的监控图像或者视频序列中检索出目标行人。现有的行人重识别方法大多集中在对一个模态的研究,即可见光模态,所用的行人图像均取自于工作在白天的可见光摄像头。事实上,这样的摄像头并不能在弱光或者黑暗的条件下捕捉到有效的行人信息。