论文部分内容阅读
1994年,万维网(World Wide Web)出现。万维网极大地方便了人们的工作,它的信息广泛的可访问性以及开放性极大的鼓励了人们的创作积极性,同时也给信息检索领域带来了新的发展机遇和技术挑战。搜索引擎是一个网络应用软件,从Web用户角度看,它能根据用户提交的查询词、短语或者一句话,返回一个可能与用户查询相关的网页列表,供用户进一步地判断和查询。当前,搜索引擎面临以下技术难点:多源异构数据类型、搜索内容的全面性、搜索的准确性、个性化检索等。个性化搜索是未来搜索技术发展的一个重要方向,是机器服务人类,人机和谐交互的一个重要发展。本文系统的研究了中文搜索引擎的工作原理、实现技术以及个性化模型。深入地分析了中文搜索引擎的核心技术:中文分词、机器爬虫、索引的建立与倒排序文件的生成、查询优化以及查询结果的排序等。通过对中文分词系统的改进,加入混合词典机制,提高了中文分词的准确性。分析Web信息挖掘技术与信息检索技术的关系,通过对用户使用中文搜索引擎的查询习惯、访问频率,浏览网页等信息资源进行挖掘,提取用户的使用特征以及兴趣爱好,建立用户的个性化兴趣模型。根据用户个性化兴趣模型,给出了一个个性化中文搜索引擎模型。旨在结合Web信息挖掘提高中文搜索引擎的查准率,为用户提供个性化的信息检索服务。本文所做的具体工作如下:(1)深入研究中文搜索引擎的核心技术实现细节:网页信息搜集、对搜集到的原始信息预处理、建立索引以及倒排文件、提供查询服务。(2)改进中文分词系统,提出一种实用的提高分词准确率的方法。(3)分析Web信息挖掘技术与信息检索技术的关系,研究用户个性化模型的建立与更新,提出基于对用户使用搜索引擎的行为和习惯等信息进行挖掘建立和更新用户个性模型的方法。(4)结合本文所做的研究,给出了一个个性化中文搜索引擎模型。