垂直搜索引擎中数据获取技术的研究与实现

来源 :北京邮电大学 | 被引量 : 1次 | 上传用户:wocaonimababa
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
最近几年,垂直搜索引擎作为一种新型的搜索引擎出现在互联网各类产品之中。它的出现,是在信息化时代互联网数据爆炸式增长的大背景之下,人们为了追求更好的检索体验的产物。垂直搜索引擎一般只涵盖一个领域,提供比全文检索更专、更精、更深的检索服务。总体来说,垂直搜索引擎系统包括三个主要模块:结构化数据获取模块、索引模块和检索模块。本文介绍了系统原理和架构,然后把重点放在了结构化数据获取模块。垂直搜索引擎数据获取是整个系统正常运行的基础,结构化数据是垂直搜索引擎所要求的最终数据形式。本文把垂直搜索引擎数据获取分为两个阶段:网页的采集和网页信息提取。在网页采集部分,本文提出了主题爬虫的概念。对其经过深入研究后,结合垂直搜索引擎的特殊需求,设计实现了一个视频主题爬虫,并结合主题爬虫的特殊性,提出了不同于传统网络爬虫的抓取策略,包括基于树结构的遍历策略和基于标签组合的遍历策略,从而使主题爬虫高效的抓取全部网页。为了实现主题爬虫的增量抓取功能,又创新性的给爬虫添加数据库交互模块。由于网页开发新技术的广泛应用,越来越多的主题网站采用JavaScript等技术来实现数据的展示。传统爬虫对此类动态数据的抓取效果不理想,本文研究并实现了动态数据采集的两种方法,分别是基于JavaScript源码分析的方法和基于嵌入浏览器内核的方法,使得主题爬虫具备动态数据采集的功能。在网页信息提取部分,本文首先基于人工分析xpath的方法,实现了批量网页的信息提取。针对主题网站改版和垂直搜索引擎覆盖新的主题网站等情况,本文又增加了自动生成xpath模板的功能,从而实现了自动化信息提取系统。最后,本文对相关工作做了总结,并结合实际情况,指出系统当前存在的问题以及后期改进方向。
其他文献
自十八大以来习近平同志高度重视文化的地位和作用,在十九大报告中提出"坚定文化自信,推动社会主义文化繁荣兴盛"的伟大号召。中华传统文化在现代国家治理中具有直接、重大且
营业税存在的关键问题是对税收的重复征收,随着当前社会经济的不断发展,社会分工的专业化程度在提高,分工也变得更加复杂,因为营业税重复征税导致的问题也层出不穷,对企业发
燃料/空气文丘里混合器结构简单,其结构参数能够直接影响燃烧器性能。本文对燃料/空气文丘里混合器的研究现状进行了综述。首先,详细阐述了影响文丘里混合器掺混均匀性的重要
混合式培训源是运用理论知识、信息技术手段及实践应用于一体的全新培训模式,以教师发展需求为导向,以实践应用为目的,改善培训环境、培训内容和培训方式,统筹运用六种组织形
<正>法国诗人阿尔蒂尔·兰波在与另外一位诗人魏尔伦舌战的时候,脱口而出说:"你是知道怎样写诗,但我知道为何写诗。"知道怎样写诗,却不知道为何写诗,其实是丢失了诗的本质,只
蒸汽引射器是热力系统中常用的动力装置。分别采用平衡相模型和非平衡相模型,对某超音速蒸汽引射器的流场进行了数值计算和对比分析。建立了描述引射器内蒸汽流动的NS方程组,
针对丙烯腈装置AOGC系统的分析仪样品处理系统存在的问题,通过对现有工艺气抽引方式优缺点与适用性的对比,最终选择文丘里抽引器进行取样并增加列管冷却器,作为样品处理系统
我国为应对全球金融危机所采取的财政刺激政策、转移支付以及宽松的货币政策等将是后危机时期可能产生通货膨胀的重要原因。为防止严重通货膨胀的形成,当前政府必须采取综合措
<正> 诗歌在文学艺术中是文学重要体裁之一,历来受到人们的喜爱和重视。从“五四”以来,到今天,新诗已有六十多年的历史。我个人相当长期地,在诗歌这块园地上耕耘着,现在,谈