语义网分析初探

来源 :东南大学 | 被引量 : 0次 | 上传用户:franky_816
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
随着语义网研究的发展和技术的不断进步,新的语义网应用不断涌现,越来越多的语义网数据被在线发布。截至2009年,语义网搜索引擎Sindice报告已经索引了超过4000万个语义网文档。特别是近两年来,随着Linking Open Data项目的开展,语义网上不同数据集的数据逐渐被互相链接起来,构成了一个庞大的网络结构。因此,人们迫切需要了解目前语义网的宏观结构,特别是研究人员与应用开发人员需要掌握语义网的宏观数据分布规律与形态特征,在此基础上探讨语义网的未来发展或者有针对性地优化应用程序。 本文试图通过分析和比较在不同时期以不同方式收集得到的真实的大规模语义网数据,推断和预测未来语义网的发展趋势和方向。通过对语义网数据进行分析,也可以指导语义网搜索引擎的数据收集及数据检索策略,便于更加全面和准确地定位信息,为用户提供更好的服务。 为了探索语义网的发展现状,用网络爬虫收集到近千万的语义网文档,构成数据集。对数据集进行了数据来源分析,表明语义网文档的注册域名累加分布满足幂率分布:对语义网文档的顶层域名分布的分析表明:语义网文档的国家分布不均衡,来自于政府网站的语义网文档数量大幅增加,部分中国站点尤其是一些国内院校的网站也已开始发布语义网数据。对所有语义网文档解析总计得到超过四亿个RDF三元组,以RDF三元组作为语义网文档规模度量的单位,分析结果表明:语义网文档的规模累加分布满足幂率分布。分析了命名空间的使用情况,结果表明:与两年前相比,RDFS和OWL越来越多地被使用,90%以上的文档使用RDFS和OWL。 进一步地,从数据集中抽取了概念层的词汇和词汇表,对词汇表进行了词汇组成特征分析,结果表明:近80%词汇表包含至少一个类和属性。基于词汇定义时产生的词汇依赖-影响关系形成词汇依赖图(TDG),对TDG的分析结果表明:词汇的依赖关系(出度)分布满足幂率分布:TDG的影响关系(入度)分布满足幂率分布。对TDG计算了强连通分支(SCC),结果表明:93.4%的SCC只包含一个词汇:最大的SCC包含超过一万个词汇。
其他文献
随着通信理论的发展,低密度奇偶校验码(Low-Density Parity-Check codes,LDPC codes)作为一种逼近香农限的线性分组码,凭借其较低的译码复杂度和良好的纠错性能,成为当前信道
随着网络信息化技术的发展,存储系统在整个信息系统中所占的比重逐渐增加。目前存储数据被非法访问、泄漏和篡改等安全问题日益受到重视。本文对SAN和NAS融合的安全问题进行
词语对齐的目标在于指明平行文本片段之间的对应关系,最早是作为统计翻译模型的中间产物而被提出。在英汉词对齐技术研究中,词形、语义、句法的多样性和灵活性,未登录词及分
随着计算机技术的迅速发展,信息资源的异构性在各行各业的信息管理系统中无处不在,形成了大量的信息孤岛。电力行业作为国民经济的基础产业,在国民经济和社会发展中发挥着重
目前,基于先进的互联网和多媒体技术的网络教育,较以前的教育模式有很大的进步。随着新世纪的来临,终身教育成为现代社会的需要。要真正解决和实现教学在任何时间、任何地点进行
织物染色是提高纺织服装产品附加值的关键行业,也是纺织行业的发展和技术水平的综合体现,而配色又是染色行业中至关重要的一个环节。传统的配色过程工作量大,费时费料,而且还
在非易失性存储器中,主流的NAND闪存由于吞吐性能好,能量消耗低,数据存储稳定,成为了数据存储领域的一种重要的存储媒介。多级存储单元(MLC)技术通过提高闪存单元存储密度来
随着互联网中信息量的不断增长,搜索引擎已经成为人们快速获取有效信息的重要手段,是人们日常生活中必不可少的工具之一。但是单一搜索引擎能够检索到的信息量有限;而且有多
在对高维数据的处理中,若不考虑数据降维的问题,会导致数据量大,计算复杂,难以提取有价值的信息等问题,因此,高维数据的特征提取是数据挖掘中重要的数据预处理问题。高维数据
随着多媒体的高速发展,对嵌入式处理器处理音视频的能力要求也越来越高,而嵌入式多核处理器上的并行编程成为了开发过程中的一大难题。如何从另一个角度突破并行编程的牢笼,