垂直搜索引擎研究与实现——以笔记本驱动下载为例

来源 :云南大学 | 被引量 : 0次 | 上传用户:redhatping
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
随着网络信息资源呈几何级数增长,使用传统搜索引擎技术进行准确、快速、深入地查找所需信息变得越来越困难。针对通用搜索引擎存在的这些缺点,新一代搜索技术--垂直搜索引擎应运而生。   垂直搜索引擎是针对某一个行业的专业搜索引擎;是搜索引擎的细分和延伸;是针对性的为某一特定领域、某一特定人群或某一特定需求提供的有一定价值的信息检索服务。它为用户提供的并不是上百甚至上千万相关网页,而是范围极为缩小、极具针对性的具体信息。论文主要内容:   首先,介绍了论文研究的背景和意义以及垂直搜索引擎在国内外的发展情况;   其次,介绍了垂直搜索引擎的关键技术,并做了一些创新工作;   1.web四层结构模型的建立。由此设计了以路径检索方式爬虫的主题爬虫器。   2.基于包装器和网页特征相结合的信息抽取方法的提出。首先用包装器把主题内容块抽取,接着根据源网页特征,实现主题块的完整抽取。   3.专业词典的设计与实现。通过学习中文分词技术,设计并实现了一个面向笔记本电脑驱动的专业词典。   4.URL采集系统的设计与实现。利用它找到驱动下载的大型门户网站。   5.建立以下载次数升降的排序算法,实现对搜索结果列表中的关键字进行描红的技术。   最后,本文设计了各个子系统,并实现了面向笔记本电脑驱动下载的垂直搜索引擎的原型系统。通过测试比较本搜索引擎与通用搜索引擎的搜索结果,验证了本垂直搜索引擎相对通用搜索引擎的有效性。
其他文献
在地形三维场景的绘制过程中,传统的技术方案主要集中在图形硬件端的优化,即通过显示列表、顶点缓存对象等对客户端发送到显卡服务器的地形数据进行封包显示,严重的占用了存
可靠性从上个世纪三四十年代就受到了人们的关注,其主要原因就是当时军用产品频频出现故障,以至于人们不得不深刻的反思应该怎样对产品的可靠性进行保证。从那以后,人们便开
本系统针对林权改革实际问题和需求,以PDA为硬件,通过嵌入式编程开发,研发了基于eSuperMap的林权改革数据采集系统。该系统充分发挥了地图编辑、地图处理、GPS导航及数据采集
信息可视化(Information Visualization)是可视化研究领域的重要分支,它致力于增强人们对源于自然、科学与社会生产实践的、抽象的、大型非空间数据集认知能力的可视方法与交
运动目标的跟踪是计算机视觉、模式识别以及人工智能等学科的一个重要研究内容,广泛应用于安防监控系统中。由于目标运动的多样性和周围环境的复杂性,包括遮挡、目标变形、光照
权限管理模块是web应用系统中重复开发率较高的模块之一。基于B/S的通用权限管理系统的研建将开发人员从重复的开发中解脱出来,使其更专注于业务需求的实现。本文首先对RBAC
移动无线自组织网络是由多个无线可移动的节点组成的一个无固定架构的多跳无线网络。Ad hoc自组网可以满足灾后救援以及战场指挥等特殊场合的通信需求便是得益于它无需任何固
对于PC机而言,开机执行的第一条指令来自主板BIOS。因此BIOS的安全影响着整个计算机的安全。可扩展固件接口(EFI)是英特尔公司为其新一代64位安腾处理器(Itanium)设计的操作
不确定数据在一些重要应用领域中是固有存在的,如传感器网络和移动物体追踪。随着数据采集和处理技术的进步,人们对数据的不确定性的认识也逐步深入。基于不确定数据进行数据
近一百多年来,随着东西方文明的不断碰撞,国内知识界翻译了大量的外国文献。在翻译引进的过程中,以汉语为代表的汉藏语系语言受到了以英语为代表的印欧语系语言的影响。这种