论文部分内容阅读
随着我国科研水平的提高,良好的学术环境变得日益重要,同时伴随着互联网的迅速发展,学术领域的数据在无限扩大,大量的学术资源数据分散于各种会议网站、学术社交平台及各类期刊杂志上,传统的学术领域信息系统大多是基于文档和封闭独立的数据库系统建立的,同时不同的数据源并没有把自身的数据公开和共享导致这些数据并没有有效的链接在一起,难以形成有效的学术领域资源整合。 为了使不同数据源上的数据包括各种会议期刊论文上的孤立的数据源能够更好地实现资源共享,Tim Berners-Lee在语义网的基础上提出了关联数据的概念,关联数据作为语义网数据的描述和链接,依靠现代的互联网优势,在数据共享上采用了与传统共享机制不同的理念,它主要强调数据的关联性,提倡数据的开放、共享及数据与服务相隔离的模式,从而建立一个完整的全面性的大数据空间,也即是现在的Linked Open Data(LOD)。关联数据的提出也给学术领域的数据共享提供了契机。 本文主要结合当前学术领域资源数据集和在此基础上的应用形式,提出了基于结构化数据和非结构化数据的转换关联数据方法,对数据的获取以及数据的转换做了详细的阐述,分析了关联数据构建的核心问题,实现了基于关系数据如何转换为关联数据和基于本体的学术信息抽取,从而构建一个学术领域的关联数据集,并通过浏览器的形式更加直观地把关联数据的形式展示给用户。最后分析了当前关联数据的应用模式,并且从用户的角度考虑,设计一套基于关联学术数据的信息检索系统,该系统包括基于关键字查询的UI接口和基于SPARQL查询的UI接口,来实现关联数据在特定领域的实际应用。 本文充分利用了关联数据的思想对学术领域关联数据的构建,使学术资源以开放、关联、共享和可复用性,大大提高了学术资源的价值,同时能够为学者提供更好的服务。