Web对象提取检索系统的设计与实现

来源 :北京大学 | 被引量 : 3次 | 上传用户:wscmjk
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
近年来,互联网的迅速发展掀起了信息时代又一轮的经济与技术的发展浪潮。而日益强大的搜索引擎正是引领这一时代的关键技术之一,它有效的解决了互联网由于爆炸性发展带来的数据检索困难。当前基于网页的通用搜索引擎(Page-Level Searching)又称页面搜索引擎占据主导地位,但它只能简单地返回整个页面,用户需要进一步阅读分析页面才能得到相应信息。而用户时常需要得到互联网上某种对象的信息,针对用户的这一需求,基于结构化信息的更加细粒度的对象搜索引擎(Object-Level Searching)应运而生。对象搜索引擎与通用搜索引擎相比,主要组成部分除了网络爬虫(也叫网页爬行器)、切词器、索引器、查询器外还包括Web对象信息提取和集成部分。其中Web对象的提取和集成是对象搜索引擎的难点和核心之一,也是其与通用搜索引擎的主要差别。作者在某公司实习期间参与了对象搜索引擎的设计、开发等相关工作,尤其是Web对象提取领域的研究。本文工作描述如下:1、实现了一个可配置的多线程的Web爬虫系统。用户可以在配置文件中灵活设置抓取种子,以支持多个网站作为数据源;该系统通过解析配置文件准确抓取页面,并从中进一步获取抓取种子,进行深度递归抓取。2、设计了一种基于包装器和模板提取思想的Web信息提取算法。通过仔细分析需求背景,尤其是网页结构普遍存在的相似性,深入比较各种提取方法的优劣,总结出一套整合了包装器提取法和和模板提取法主要思想的提取算法。包装器方法是设计一个程序,用于从特定的信息源中抽取相关内容,并以特定形式加以表示。该系统首先通过类似于正则表达式的XPath路径表达式定位对象信息可能存在的网页,然后通过预先定义好的模板匹配这些网页中的对象结构,以提取相应的Web对象信息。3、设计了信息集成算法。多数据源Web信息的提取过程中会出现信息的重复、不一致或者冲突的情况,信息集成算法用于解决这一问题。通过解析对象初始结构和同义词判定算法判定属性是否重复,属性值是否冲突;定义一系列集成规则合成属性和属性值,重构对象信息存入数据库。4、基于以上Web提取和集成的算法设计思想,在实习项目中应用并实现了该算法,取得了理想的效果,对目标对象的提取和集成达到了90%以上的准确率。本文应用该算法实现了一个简单的Web对象提取检索系统,以实际例子为主线阐述了该算法的详细设计过程,展示和证明了它的实际可用性。
其他文献
文章学的兴起在很大程度上与科举相关,而诗赋格则是最早研究科举行文技巧的一类著作;与诗格相比,赋格更接近后来的文章之学.唐代的赋格在很多层面上为宋代的文章学建立了轨范
二胡作为中国民族乐器中的重要一员,在人民群众中广为熟知流传,其特点是音色醇厚、力度变化丰富、音乐感染力强、操作便捷易于上手,传播广泛易于普及,假以练习便可演奏出悠扬
研发一种新型的水平送风超净工作传递装置,通过设置传递仓可与专用隔离器实现对接,在保证动物处于标准的隔离环境前提下,实现对隔离器内动物的挑选、称重、包装等处理,操作安
城市快速发展,高架桥、立交桥越来越多。在土地资源日益紧缺的现实下,桥下空间凸显其利用价值。而且随着交通的发展,新的高架桥将陆续的出现在各个城市的地图上。虽然有效的缓解
美岱召村形成与发展是历史发展的必然,美岱召村聚居活动是人类根据自身生存的需要与自然相融合,其聚落形态的演变发展需受到自然变化、历史演变、社会变革等因素相互的影响,
旱地移栽能够提早农作物的生长发育过程,延长农作物生长周期,增加农作物单产,并可以有效抵御大风、低温、霜冻等自然灾害。旱地移栽可以降低劳动成本及劳动强度,提高移栽效率
叶片含水量是植物健康状况的重要衡量指标之一。太赫兹波处于红外和微波之间,对样品水分变化非常敏感,当太赫兹光谱穿透含水丰富的叶片时,叶片中水分等物质能对太赫兹光谱产
无论是进入国际承包市场,还是立足国内建筑市场,我国承包商都将无法回避索赔问题。施工索赔不仅是承包商保护自身利益的需要,也是保护业主利益的需要。为了既有利承包商大胆
<正> 通分是代数式变形的一项基本功,在具体处理上很有一些讲究。倘若不加区别,一着手就求最简公分母进行通分,常为后续工作带来很大困难。若注意观察各分式分母、分子的结构
<正>1.约分后通分例1 计算 (x2+2xy+y2)/(x2y+xy2)-(x2-2xy+y2)/(x2y-xy2) 分析分式的分子与分母有公因式,故先约分,然后通分.解原式=(x+y)2/xy(x+y)-(x-y)2/xy(x-y) =(x+y)/(x
期刊