智能中文搜索引擎若干关键技术的研究与实现

被引量 : 0次 | 上传用户:xindongmei
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
随着Internet的快速发展,Web信息的迅速增加,人们越来越依赖于搜索引擎来获取互联网上有用的信息。目前传统中文搜索引擎系统一般都采用关键词匹配模式,没有很好地解决关键词跟网页之间的相关性;同时在搜索推荐词的生成方法上,也往往只是在用户搜索关键词上加入前缀、后缀字符串作为相应的推荐词,没有深入到语义理解层次,不能很好地反映用户真正意图,智能化程度较低。因此,如何更好地理解中文网页信息、改进搜索关键词与网页的相关性、提供基于语义联想的搜索推荐词已成为新一代智能中文搜索引擎系统亟待解决的若干核心问题。 该文对智能中文搜索引擎系统中的若干关键技术进行了较深入的研究,其研究内容主要包含以下几点: 1) 设计了一种类trie树的高效词典组织结构。把中文分词过程分成两个阶段,在第一阶段采用bigram模型并辅以一定的规则,在第二阶段采用基于词的最大正向匹配算法,最后把这两个阶段的结果合并,较好地解决了汉词切分中一直存在的歧义现象难以排除、新词识别困难等难题。实验结果显示词典模块达到了较快的切分速度和较高的切分准确率,这为高质量概念词的产生和后续网页处理提供了前提; 2) 给出了一种基于语义联想的搜索推荐词生成方法,该方法基于概念集群的思想,能够有效地引导用户搜索,有别于传统搜索引擎系统的搜索推荐词生成方法,扩大了搜索的深度和外延;提出了一种新的网页排序算法,该算法基于系统的概念集群和关键词对网页的RANK值(权重值),较好地反映了用户搜索关键词与网页的相关性;同时使用《同义词词林》中文语料库,对用户查询进行优化,实现了同义或近义词提示功能,丰富了用户的搜索体验,从而提升了搜索引擎系统的智能性; 3) 设计了智能中文搜索引擎系统的总体框架,给出了具体的实现方案,并对海量数据环境下PageRank的计算、概念集群的形成、索引的生成提出了一些改进方法,最后在实际运营的大型服务器集群上实现了一个原型系统,并给出了详细的实验结果。
其他文献
为了克服传统增强现实技术的局限性,在Android系统上实现了基于无标识增强现实注册算法。使用ORB和强制匹配算法对特征点进行检测、描述和匹配,再使用RANSAC算法计算单应性矩
目的观察丹红注射液和三磷酸腺苷(ATP)对急性心肌梗死(AMI)模型兔子的治疗性血管再生作用。方法对21只日本大耳白兔子行冠状动脉结扎术,随机分为3组,药物治疗14d后处死,取心
肿瘤的生长、转移依赖于血管生成,故抗血管生成成为治疗肿瘤的重要方法之一。对肿瘤血管构筑表型的研究,有助于阐明肿瘤血管的生成机制及药物在抗肿瘤血管生成治疗中的作用。
对不同级别过氧化氢的用途作了简要叙述,详细介绍了电子级过氧化氢的应用领域、质量标准、纯化技术和国内外研究发展现状。
《飘》是一部以贵族之女郝思嘉的奋斗历程为主线,展现社会现象,传播美国文化的文学巨著。此书的巨大成功之处就在于其深厚的文化底蕴和内涵,从男女主人公的奋斗历程,体现了资
除北京、上海、广东这些发展较快、较早的地区之外,中国内地绝大多数地区的政府购买社会工作服务都是刚刚起步,都正在经历发展初期特有的困境与问题。为了促进这一事业在全国
詹姆逊新历史主义文学批评跨越了历史学、人类学、文学、经济等学科界限,以兼容并包的方式研究文学文本,试图通过形式看到形式背后的东西.为文学批评提供了一种新的、综合的方法
从国际市场占有率、贸易竞争优势指数、显示性比较优势指数以及固定市场份额模型指标等来看,在茶叶出口上,虽然中国的贸易大国地位难以动摇,但其国际竞争力还只是处于中游水
《安娜·卡列尼娜》中家庭生活的不幸、社会传统的束缚、爱情追求的幻灭等导致了安娜的不幸结局。她的一生是对社会道德的反叛,但最终也躲不过道德十字架的审判,成为世人眼中
<正>预告片作为影视作品宣传最有效的手段之一,在极短的时间内将影片主创人员、主要演员及作品的题材、内容、风格等基本信息创造性地组织在一起,是影视作品精彩片段的浓缩,