【摘 要】
:
面对“数据爆炸,信息匮乏”的互联网,主流商业搜索引擎可以满足普通用户的检索请求,可是在搜索特定行业领域信息时,主流搜索引擎则不能满足这方面的需求,主要表现在:有效文档
论文部分内容阅读
面对“数据爆炸,信息匮乏”的互联网,主流商业搜索引擎可以满足普通用户的检索请求,可是在搜索特定行业领域信息时,主流搜索引擎则不能满足这方面的需求,主要表现在:有效文档覆盖率不高,返回结果噪声信息量比例大,查准率较低,本文设计实现的面向行业搜索引擎就是在这样的背景下产生的。针对主流搜索引擎的不足,面向行业搜索引擎很大程度上补足了主流搜索引擎的短处。本文实现的系统通过记录用户个性知识,采用定制的爬取策略和更短的更新周期,提高有效文档覆盖率和查准率,通过统计报表信息,新闻资讯定制推送服务等个性化方式展示结果。本文围绕面向行业搜索引擎系统,研究了要实现行业搜索引擎相关知识难点,并按照搜索引擎组成的各个子系统,分别完成各个子系统的设计和实现工作。最后完成对系统进行完备测试,总结各个测试的统计信息,并相应进行分析和总结,主要做出了以下工作:分析了主流搜索引擎的演进历程、主要搜索引擎类型,剖析了主流商业搜索引擎的多个不足点;研究了搜索引的工作原理具体讨论了面向行业搜索引擎实现相关的关键技术点,包括面向行业搜索引擎的组成结构、信息检索模型、索引技术等关键知识点;按照面向行业搜索引擎设计的总体构架、核心流程,针对各个组件进行具体设计;面向行业搜索引擎的具体实现,包括页面信息的采集、索引创建和生成、检索流程的实现;在系统设计和具体实现基础上进行了完备的测试,在统计测试数据的基础上进行相应的分析。
其他文献
科学技术发展日新月异,人们对于视觉获取上的要求越来越高,图像矩技术的应用也越来越广泛,发展速度越来越快。基于矩技术的图像匹配和目标识别技术被广泛的应用到了社会各个领域
近年来,随着经济和科技迅猛发展,由于电力系统中负荷日益增多以及非线性设备的大量使用,使得电力系统中谐波污染越来越严重。谐波所产生的污染不仅严重的干扰了电网的电能质量,同时也影响着人们日常的用电质量。为了有效的治理电力系统中的谐波,就需要对谐波进行检测,确定电网中所含的谐波成分。独立分量分析作为最近这些年兴起的一种高效的盲源分离方法,已经应用于图像处理、语音处理、地震信号处理等方面,但是在谐波检测方
城市地下水管道的漏水是造成水资源浪费的一个重要原因,随着淡水资源的日益枯竭,管道漏水检测越来越受到人们的重视。对漏水声音信号的采集分析是漏水检测最行之有效的方法,
多同步数字转接系统要实现的功能是将以太网、语音、TDM/E1、图像共四路业务数据通过光纤、MESH、E1、V.35这四路同步数字传输通道传输到远端。实现此功能主要需要解决三个问
认知无线电技术是当前现有频谱分配政策下,克服频谱资源短缺的有效手段,而频谱感知则是这项技术的前提。本文以循环平稳检测为研究的基本路线,通过分析接收信号的循环平稳特
近几年,随着信息技术在各行各业的普遍应用,出现了信息资源管理,服务器整合等需求,虚拟化技术作为一种解决方案而进入了一个快速发展的繁荣时代,特别是最近云式计算概念的提
近年来随着无线通信技术的飞速发展,对于高数据量信息的可靠性传输提出了更高的要求,越来越多的场合需要对高数据量的信息进行既可靠又高速的传输,例如卫星通信和无人机测控系
在实际环境中,由于背景噪声的存在,语音信号总是难免受到噪声的影响,噪声的存在导致原始语音信号的信噪比下降,可懂度降低。随着背景噪声进一步增大,原始语音信号甚至会被背
在化工、石油等许多行业中都存在着有害物质,包括气体和液体,若是由于操作失误或其他原因,导致这些有害物质在生产或运输过程中泄漏出来,那么居民和环境就会受到非常大的危害
多输入多输出(MIMO,Multiple Input Multiple Output)技术利用多根发射天线和接收天线发送和接收数据,可以在不增加系统带宽和天线发射功率的前提下显著提高系统容量和链路可靠