维基百科上的语义搜索

来源 :上海交通大学 | 被引量 : 0次 | 上传用户:geweiqi0219
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
维基百科,作为最著名的Web 2.0应用之一,在大批志愿者的协作编辑下,逐渐成为世界上最大的免费在线百科全书。维基百科中的内容和文章组织方式使其成为一个方便的在线知识门户网站,这也是使其取得巨大成功的关键因素。维基百科里,几乎每篇文章都是对一个实体的详尽描述,含有丰富的文本信息。此外,文章中也含有丰富的结构化信息,如类别系统和信息盒数据。最近有越来越多的工作从维基百科中抽取出这些结构化信息并表示成语义数据。然而现有搜索引擎并没有充分利用维基百科中丰富的结构化和语义数据,因此极大限制了用户对于该大规模知识库的利用。随着维基百科的快速发展,其中的文本信息和语义信息也越来越多。因而,如何更好、更快并且更智能化的访问这些信息成为一个重要问题。这就需要一个同时基于文本信息及语义信息的有效的搜索服务。语义搜索正是用来解决这一问题的关键技术。因此,本课题研究将语义搜索技术应用于维基百科,搭建维基百科上的语义搜索系统,从而让用户拥有更强大的搜索能力,得以更充分的利用该大规模知识库。在维基百科上搭建语义搜索系统有三大难点:如何更充分的挖掘维基百科中的语义数据,构建大规模知识库;如何提供尽可能强大的混合查询能力,支持对文本信息和语义信息的混合查询,并保证其高效性;如何对用户提供友好的搜索界面,使其在支持强大的混合查询能力的同时,仍然保持易用的特点。考虑到现有基于维基百科信息盒及文本抽取语义数据的方法具有较低的文章覆盖率,本文进一步挖掘维基百科分类系统中所隐含的知识,提出了基于维基百科父子类别对的自动抽取三元组数据的方法。基于维基百科的大量语义数据和丰富文本信息,本文提出了一个扩展信息检索引擎的索引结构和功能来提供高效混合查询的新方法。首先我们定义了一种树型混合查询,同时具有结构化查询和关键字查询的能力。然后我们扩展信息检索引擎中广泛使用的倒排索引技术来支持对关系的索引,将混合查询的处理算法分解为倒排索引上的基本操作,并实现考虑关系的排序机制。利用这个方法可以对海量的语义数据及文本信息进行索引,并且可以高效的处理用户的混合查询。为设计友好的搜索界面,本文扩展了广泛使用于结构化数据的多视角浏览及搜索界面,让用户从熟悉的关键字搜索入手,在返回搜索结果的同时自动对当前结果所属的类别及所涉及的关系给出提示,引导用户迭代该过程并完成复杂的混合查询。实验表明,本文基于维基百科类别自动抽取语义数据的方法在文章覆盖率上超越了以前的工作,同时进一步扩充了三元组数据。本文实现的语义搜索系统在保证高效和易用的前提下,大大增强了用户在维基百科上的查询能力,改进了搜索效果,让用户更充分的利用到维基百科中丰富的知识。
其他文献
随着信息安全技术的发展,当今在信息安全领域中Rootkit变得越来越重要,Rootkit技术正成为信息安全领域最大的挑战之一,越来越多的研究人员开始涉足Rootkit技术。该技术最早被
随着面向对象技术和分布式对象技术的应用,软件复用技术得到迅猛发展。在当前的软件复用技术领域中,基于组件的软件复用技术被视为较好的软件应用开发技术。论文对软件复用技
电容层析成像(Electrical Capacitance tomography,ECT)技术是20世纪80年代中后期发展起来的一种过程层析成像技术(Process Tomography,PT),具有成本低,快速响应及测量的非侵入性
政策最早以规则、策略、协议的形式应用于计算机及网络的各个领域,包括数据库安全、分布式网络和移动网技术等领域。然而,从政策管理的力度来说,它们只实现了较低层次的政策
远程医疗是通过信息和通信技术应用于远距离健康活动和服务的系统。它通过数据、文字和图像资料的远距离传送,实现医院间的远程会诊。在整个会诊过程中,患者文件的组织管理、传
人脸检测问题研究具有很重要的意义,可以应用到人脸识别、新一代的人机界面、安全访问和视觉监控以及基于内容的检索等领域。视频信号是人类接触的最主要媒体,人类接受的外界
在逆向工程应用中,由于样件局部遮挡或者测量手段的限制,通过测量所获得的原始点云数据往往存在数据缺失而形成孔洞。因而在孔洞点云数据的曲面重构中,需要对孔洞进行修补以
随着互联网的飞速发展及企业信息化水平的提高,数据的产生量和积累量呈指数增长,如何利用好、管理好海量数据,已成为影响企业决策,驱动价值增长的重要环节。MapReduce模型作为大
RFID(Radio Frequency Identification)射频识别技术,是一种非接触式的自动识别技术,它通过射频信号自动识别目标物体并获取目标数据信息,识别工作无须人工干预,可在各种恶劣
中文命名实体的语义关系抽取是关系抽取的一个重要研究方向。由于中文文本具有不同于英文文本的一些特有的语法特点,中文命名实体的语义关系抽取研究发展一直较为缓慢。中文