垂直搜索引擎的研究与实现

被引量 : 0次 | 上传用户:zhengyicai2010
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
互联网发展的初始阶段,网络的海洋里并没有非常多的信息。但是伴随着HTML的出现,互联网资源的数量急剧膨胀,特别是近些年,互联网的信息达到了数以百亿计。搜索引擎的出现为互联网用户提供了一个理想的查询信息的接口,搜索引擎解决了海量互联网资源的快速定位和检索,在当今网络时代占据着举足轻重的地位,成为仅次于电子邮件的第二大网上服务。但是,互联网的资源继续疯狂的增长,通用搜索引擎因为其庞大的数据量和宽泛的主题越来越无法满足用户对某一专题领域信息精确查找的需求。互联网用户需要能够快速、精确查找信息的专题搜索引擎应用。所谓的专题搜索引擎是为了提高互联网用户查询特定领域信息的需求而产生的,它抓取和建立索引的信息是某一专门领域的资源。专题搜索引擎进一步发展,引入结构化的网页内容分析技术就是垂直搜索引擎。本文讨论了当下国内外搜索引擎发展的概况,并分析了搜索引擎各组成部分的功能和原理。在搜索引擎检索库形成之前,以汇聚专题信息和建立相关度高的索引两个核心角度为考虑基础,并以专题训练集对比锚文本和标题信息以及网页内容信息判断专题相似度,设计了一个基于锚文本和标题信息过滤初始网页,并结合基于网页内容的HITS算法的整体方案的垂直搜索引擎。文章主体部分首先介绍了搜索引擎发展的背景,以及发展垂直搜索引擎的必要性,并以垂直搜索引擎的设计为主线依次讨论各部分功能的相关技术以及技术策略。着重介绍了专题训练集、网页页面分析技术、抓取策略和建立索引的经典算法以及专题网络蜘蛛的设计规则,并介绍了本文分类的策略和方法。然后阐述了该搜索引擎的整个实现过程,以开源nutch框架为基础,依据前面提出的策略设计实现了一个完整的垂直搜索引擎,并介绍各实现部分的相应技术。最后,通过对于垂直搜索引擎的测试和实验,证明了它的稳定性和有效性。
其他文献
综合利用辽中凹陷钻井和地球物理资料进行井一震标定、地震地层学解释和地震相分析.在东营组二段(简称东二段)沉积时期,该区分布多个NE向古辽河水系发育的三角洲沉积体系,存在前缘
对国有公司来说,务必要具备良好的控制力,这种控制力一般体现在管控内部结构,而会计核算与财务管理工作恰为其中的关键内容,也为重点内容。伴随信息时代的到来,国有公司在开
变形预测模型是变形监测研究工作的重要内吝,为了更好地对变形体未来的形变量进行预测,在粒子群改进传统BP神经网络基础上,进一步对粒子群算法进行改进,并通过引入混沌理论,提出了
随着大跨空间结构向跨度更大,质量更轻的方向发展,结构在风荷载作用下的动力效应日益明显。这种动力效应不仅引起结构中应力响应极值的增大,而且也会在结构中产生疲劳累积损
2000年以来,中国GDP增长速度稳定,社会需求与社会收入同步增长,在宏观经济形势良好的背景下,住宅开发投资持续快速增长,所占比例不断提高,普通商品房施工面积、竣工面积、销
《红楼梦》的宗教书写是非常复杂的,它承继了多种与宗教密切相关的文学传统,构成其超现实世界描写。这几种文学传统在旨趣上关系复杂,小说整体的张力多义色彩即与此有关。而
目的探讨维生素B3对PINK1B9突变转基因果蝇的保护作用及其可能机制。方法选用TH-Gal4/UAS系统的PD转基因果蝇模型,按处理方式分为正常对照组、PD转基因果蝇模型组、PD转基因
地籍管理是土地管理的核心,是国家行政管理措施之一,是强化土地管理的基础性工作。地籍信息管理系统是土地信息系统的重要组成部分,是地理信息系统技术在地籍管理中的应用,也
为研究中英美三国汇市、股市、期市间是否存在波动溢出效应,存在何种波动溢出效应,孰大孰小等一系列问题,截取2005年7月22日至2009年6月30日的EUR/USD、EUR/GBP、EUR/CNY、标
通过对中国传统道德在当代道德建设中的价值的深入反思,根据自己的理解,对现有的相关研究进行整合,初步认清了当代道德建设的背景,当代道德建设的价值追求:追求和谐、追求共