职位搜索引擎的研究与设计

来源 :中南民族大学 | 被引量 : 0次 | 上传用户:xinxinde1986
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
随着互联网的不断发展壮大,Internet已经成为世界上最大的信息资源库。同时,面对纷繁冗杂的网络资源,如何从中准确、快速、全面的获取人们所需要的信息已经成为一大难题。搜索引擎的出现就是为了帮助人们解决这一难题的。目前,大多数基于互联网的搜索引擎(如:雅虎、百度、谷歌google)是以一种水平的搜索方式向人们提供服务的。也就是说它们是不分种类地把信息提供给人们,各种不同行业的信息不会被区别对待。人们称这种搜索引擎为“水平搜索引擎”。虽然这种“水平搜索引擎”可以提供给人们大量的信息,但是它们在特定领域内的查准率较低。尽管它们能给用户返回数量可观的查询结果,但实际上,其中与被搜索领域相关的结果却不够多,返回的内容也可能是很久之前的过时信息。“水平搜索引擎”的价值在于可以通过聚类、分类等各种操作对海量数据进行分析,为人们进行信息“导航”,但是它们却很难理解使用者的搜索意图。 正如上文所言,“水平搜索引擎”无法准确、及时、全面的为人们提供特定领域的信息。针对于这一点“垂直搜索引擎”应运而生。所谓“垂直搜索引擎”就是指专们为某一特定领域、某一特定人群又或是某一特定需求提供信息和相关服务的搜索引擎,它的设计应该符合所专注的行业的特点。目前,国内的职位搜索引擎才刚刚起步,在搜索速度等方面都还无法与百度等“水平搜索引擎”相比。 本文根据用户对职位信息搜索的实际要求,依据软件工程的思想,对职位搜索引擎进行分析研究、设计和具体实现。主要是从提高系统搜索速度和检索性能的角度来进行系统架构、分词器和分类器的设计。最后,经过实际测试证明:本文所设计的新系统提高了搜索性能,满足了用户的功能需求。本文的工作与创新如下: 1.职位搜索引擎体系架构的设计为了对原有职位搜索引擎架构Jobui2.0(职友集现行的架构体系的版本代号) 的性能进行改善,本文设计了一套新的职位搜索引擎的架构Jobui3.0(职友集新的架构体系的版本代号)。这包括:1)引进“索引缓存”以减少I/O 消耗提高查询速度,并通过“索引管理器”来控制缓存索引的更新与选取;2)设计了旨在加速查询的多级缓存机制;3)设计了一套容错和集群扩充机制。 2.高效分词器的设计提出了一种改进的正向最大匹配算法(Forward Maximum Matchingmethod,FMM),并结合Lucene 设计了一个中英文分词器。本文列举了这种分词器和普通分词器(运用的是原始正向最大匹配算法)的切分对比数据,以及展示了这种分词器的分词效果,证明了这种分词器在坚持一定准确度的情况下,在分词速度方面已经达到了系统的要求。 3.薪酬分类器的设计根据职位搜索的特殊需求,结合KNN算法设计一个用于统计薪酬的分类器。 经过对影响分类器性能的关键因素的定量分析,最后说明了该分类器的质量较好且稳定,切分效率达到了用户的要求。
其他文献
在计算机技术的发展过程中,仿真一直是一个重要的研究领域。在设计一个新的嵌入式系统时,有效地测试和验证新系统的功能和性能是十分重要的。采用软/硬件协同设计的方法能有
三维重构是计算机图形学的重要分支,有着广泛的应用。目前还没有比较通用的技术可以解决所有问题。本文所介绍的系统,致力于满足廉价的家用建模的需求,是一种基于侧面图的静
网络扩展性是移动自组织网络中的一个重要问题,利用分群的方法可以增强网络扩展性,是移动自组网被广泛使用,和实现网络管理、提高传输效率、提供各种应用服务的基础。在本文中,我
随着计算机技术特别是互联网技术的迅猛增长,软件已经成为人们生活、个人以及组织跨越地理边界进行有效地协作的一部分。这些技术的发展和提高需要用软件来满足其不断增加的需
随着互联网技术的高速发展,我们已经步入了大数据时代。在与日俱增的数据规模面前,传统的关系型数据库显得无能无力,而分布式计算和分布式存储技术受到广泛关注。分布式存储
目前,随着对外贸易的飞速发展,上海正在成为全球的航运枢纽、物流中心以及国际供应链的重要环节,这对于快件物流的速度和效率提出了更高的要求。同时,在国家打造电子检验检疫,实施
作为自然语言理解的一项基础工作,词义消歧(WSD)一直是研究的重点。在信息检索、机器翻译等应用中都存在一词多义的问题。50多年来,词义消歧的研究进展并不顺利,消歧算法离实用
无线通信实际上覆盖了目前存在的每一种通信方法。目前,有100多个研究机构和10000多个研究者从事这项工作,并且这些研究大多数是专有的,使得本文在该领域的研究成为可能。 RF
数据库关键词的语义检索作为数据库关键词查找的一个重要研究方向,在近几年已经得到了广泛关注。与精确查询相比,语义检索能够发现潜在的检索结果,给用户返回更多的查询结果,
椭圆曲线密码体制是目前公钥密码体制中在密钥大小相当的情况下安全强度最高的一种密码体制。由于其具有较短的密钥长度、较少的计算量、存储量、带宽等优点,被很多国际标准