论文部分内容阅读
随着互联网的不断发展壮大,Internet已经成为世界上最大的信息资源库。同时,面对纷繁冗杂的网络资源,如何从中准确、快速、全面的获取人们所需要的信息已经成为一大难题。搜索引擎的出现就是为了帮助人们解决这一难题的。目前,大多数基于互联网的搜索引擎(如:雅虎、百度、谷歌google)是以一种水平的搜索方式向人们提供服务的。也就是说它们是不分种类地把信息提供给人们,各种不同行业的信息不会被区别对待。人们称这种搜索引擎为“水平搜索引擎”。虽然这种“水平搜索引擎”可以提供给人们大量的信息,但是它们在特定领域内的查准率较低。尽管它们能给用户返回数量可观的查询结果,但实际上,其中与被搜索领域相关的结果却不够多,返回的内容也可能是很久之前的过时信息。“水平搜索引擎”的价值在于可以通过聚类、分类等各种操作对海量数据进行分析,为人们进行信息“导航”,但是它们却很难理解使用者的搜索意图。
正如上文所言,“水平搜索引擎”无法准确、及时、全面的为人们提供特定领域的信息。针对于这一点“垂直搜索引擎”应运而生。所谓“垂直搜索引擎”就是指专们为某一特定领域、某一特定人群又或是某一特定需求提供信息和相关服务的搜索引擎,它的设计应该符合所专注的行业的特点。目前,国内的职位搜索引擎才刚刚起步,在搜索速度等方面都还无法与百度等“水平搜索引擎”相比。
本文根据用户对职位信息搜索的实际要求,依据软件工程的思想,对职位搜索引擎进行分析研究、设计和具体实现。主要是从提高系统搜索速度和检索性能的角度来进行系统架构、分词器和分类器的设计。最后,经过实际测试证明:本文所设计的新系统提高了搜索性能,满足了用户的功能需求。本文的工作与创新如下:
1.职位搜索引擎体系架构的设计为了对原有职位搜索引擎架构Jobui2.0(职友集现行的架构体系的版本代号)
的性能进行改善,本文设计了一套新的职位搜索引擎的架构Jobui3.0(职友集新的架构体系的版本代号)。这包括:1)引进“索引缓存”以减少I/O 消耗提高查询速度,并通过“索引管理器”来控制缓存索引的更新与选取;2)设计了旨在加速查询的多级缓存机制;3)设计了一套容错和集群扩充机制。
2.高效分词器的设计提出了一种改进的正向最大匹配算法(Forward Maximum Matchingmethod,FMM),并结合Lucene 设计了一个中英文分词器。本文列举了这种分词器和普通分词器(运用的是原始正向最大匹配算法)的切分对比数据,以及展示了这种分词器的分词效果,证明了这种分词器在坚持一定准确度的情况下,在分词速度方面已经达到了系统的要求。
3.薪酬分类器的设计根据职位搜索的特殊需求,结合KNN算法设计一个用于统计薪酬的分类器。
经过对影响分类器性能的关键因素的定量分析,最后说明了该分类器的质量较好且稳定,切分效率达到了用户的要求。