论文部分内容阅读
随着Internet的快速发展,Web信息的迅速增加,人们越来越依赖于搜索引擎来获取互联网上有用的信息。目前传统中文搜索引擎系统一般都采用关键词匹配模式,没有很好地解决关键词跟网页之间的相关性;同时在搜索推荐词的生成方法上,也往往只是在用户搜索关键词上加入前缀、后缀字符串作为相应的推荐词,没有深入到语义理解层次,不能很好地反映用户真正意图,智能化程度较低。因此,如何更好地理解中文网页信息、改进搜索关键词与网页的相关性、提供基于语义联想的搜索推荐词已成为新一代智能中文搜索引擎系统亟待解决的若干核心问题。 该文对智能中文搜索引擎系统中的若干关键技术进行了较深入的研究,其研究内容主要包含以下几点: 1) 设计了一种类trie树的高效词典组织结构。把中文分词过程分成两个阶段,在第一阶段采用bigram模型并辅以一定的规则,在第二阶段采用基于词的最大正向匹配算法,最后把这两个阶段的结果合并,较好地解决了汉词切分中一直存在的歧义现象难以排除、新词识别困难等难题。实验结果显示词典模块达到了较快的切分速度和较高的切分准确率,这为高质量概念词的产生和后续网页处理提供了前提; 2) 给出了一种基于语义联想的搜索推荐词生成方法,该方法基于概念集群的思想,能够有效地引导用户搜索,有别于传统搜索引擎系统的搜索推荐词生成方法,扩大了搜索的深度和外延;提出了一种新的网页排序算法,该算法基于系统的概念集群和关键词对网页的RANK值(权重值),较好地反映了用户搜索关键词与网页的相关性;同时使用《同义词词林》中文语料库,对用户查询进行优化,实现了同义或近义词提示功能,丰富了用户的搜索体验,从而提升了搜索引擎系统的智能性; 3) 设计了智能中文搜索引擎系统的总体框架,给出了具体的实现方案,并对海量数据环境下PageRank的计算、概念集群的形成、索引的生成提出了一些改进方法,最后在实际运营的大型服务器集群上实现了一个原型系统,并给出了详细的实验结果。