论文部分内容阅读
随着语义网研究的发展和技术的不断进步,新的语义网应用不断涌现,越来越多的语义网数据被在线发布。截至2009年,语义网搜索引擎Sindice报告已经索引了超过4000万个语义网文档。特别是近两年来,随着Linking Open Data项目的开展,语义网上不同数据集的数据逐渐被互相链接起来,构成了一个庞大的网络结构。因此,人们迫切需要了解目前语义网的宏观结构,特别是研究人员与应用开发人员需要掌握语义网的宏观数据分布规律与形态特征,在此基础上探讨语义网的未来发展或者有针对性地优化应用程序。
本文试图通过分析和比较在不同时期以不同方式收集得到的真实的大规模语义网数据,推断和预测未来语义网的发展趋势和方向。通过对语义网数据进行分析,也可以指导语义网搜索引擎的数据收集及数据检索策略,便于更加全面和准确地定位信息,为用户提供更好的服务。
为了探索语义网的发展现状,用网络爬虫收集到近千万的语义网文档,构成数据集。对数据集进行了数据来源分析,表明语义网文档的注册域名累加分布满足幂率分布:对语义网文档的顶层域名分布的分析表明:语义网文档的国家分布不均衡,来自于政府网站的语义网文档数量大幅增加,部分中国站点尤其是一些国内院校的网站也已开始发布语义网数据。对所有语义网文档解析总计得到超过四亿个RDF三元组,以RDF三元组作为语义网文档规模度量的单位,分析结果表明:语义网文档的规模累加分布满足幂率分布。分析了命名空间的使用情况,结果表明:与两年前相比,RDFS和OWL越来越多地被使用,90%以上的文档使用RDFS和OWL。
进一步地,从数据集中抽取了概念层的词汇和词汇表,对词汇表进行了词汇组成特征分析,结果表明:近80%词汇表包含至少一个类和属性。基于词汇定义时产生的词汇依赖-影响关系形成词汇依赖图(TDG),对TDG的分析结果表明:词汇的依赖关系(出度)分布满足幂率分布:TDG的影响关系(入度)分布满足幂率分布。对TDG计算了强连通分支(SCC),结果表明:93.4%的SCC只包含一个词汇:最大的SCC包含超过一万个词汇。