论文部分内容阅读
近年来,互联网的迅速发展掀起了信息时代又一轮的经济与技术的发展浪潮。而日益强大的搜索引擎正是引领这一时代的关键技术之一,它有效的解决了互联网由于爆炸性发展带来的数据检索困难。当前基于网页的通用搜索引擎(Page-Level Searching)又称页面搜索引擎占据主导地位,但它只能简单地返回整个页面,用户需要进一步阅读分析页面才能得到相应信息。而用户时常需要得到互联网上某种对象的信息,针对用户的这一需求,基于结构化信息的更加细粒度的对象搜索引擎(Object-Level Searching)应运而生。对象搜索引擎与通用搜索引擎相比,主要组成部分除了网络爬虫(也叫网页爬行器)、切词器、索引器、查询器外还包括Web对象信息提取和集成部分。其中Web对象的提取和集成是对象搜索引擎的难点和核心之一,也是其与通用搜索引擎的主要差别。作者在某公司实习期间参与了对象搜索引擎的设计、开发等相关工作,尤其是Web对象提取领域的研究。本文工作描述如下:1、实现了一个可配置的多线程的Web爬虫系统。用户可以在配置文件中灵活设置抓取种子,以支持多个网站作为数据源;该系统通过解析配置文件准确抓取页面,并从中进一步获取抓取种子,进行深度递归抓取。2、设计了一种基于包装器和模板提取思想的Web信息提取算法。通过仔细分析需求背景,尤其是网页结构普遍存在的相似性,深入比较各种提取方法的优劣,总结出一套整合了包装器提取法和和模板提取法主要思想的提取算法。包装器方法是设计一个程序,用于从特定的信息源中抽取相关内容,并以特定形式加以表示。该系统首先通过类似于正则表达式的XPath路径表达式定位对象信息可能存在的网页,然后通过预先定义好的模板匹配这些网页中的对象结构,以提取相应的Web对象信息。3、设计了信息集成算法。多数据源Web信息的提取过程中会出现信息的重复、不一致或者冲突的情况,信息集成算法用于解决这一问题。通过解析对象初始结构和同义词判定算法判定属性是否重复,属性值是否冲突;定义一系列集成规则合成属性和属性值,重构对象信息存入数据库。4、基于以上Web提取和集成的算法设计思想,在实习项目中应用并实现了该算法,取得了理想的效果,对目标对象的提取和集成达到了90%以上的准确率。本文应用该算法实现了一个简单的Web对象提取检索系统,以实际例子为主线阐述了该算法的详细设计过程,展示和证明了它的实际可用性。