中文搜索引擎的个性化服务研究

来源 :电子科技大学 | 被引量 : 0次 | 上传用户：wcjlb

【摘要】

：

1994年,万维网(World Wide Web)出现。万维网极大地方便了人们的工作,它的信息广泛的可访问性以及开放性极大的鼓励了人们的创作积极性,同时也给信息检索领域带来了新的发展

【作者】

：

陈彪

【机构】

：

电子科技大学

【出处】

：

电子科技大学

【发表日期】

：

2010年期

【关键词】

：

搜索引擎中文分词用户兴趣模型个性化模型 Web信息挖掘

下载到本地 , 更方便阅读

下载此文赞助VIP

声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架

论文部分内容阅读

1994年,万维网(World Wide Web)出现。万维网极大地方便了人们的工作,它的信息广泛的可访问性以及开放性极大的鼓励了人们的创作积极性,同时也给信息检索领域带来了新的发展机遇和技术挑战。搜索引擎是一个网络应用软件,从Web用户角度看,它能根据用户提交的查询词、短语或者一句话,返回一个可能与用户查询相关的网页列表,供用户进一步地判断和查询。当前,搜索引擎面临以下技术难点:多源异构数据类型、搜索内容的全面性、搜索的准确性、个性化检索等。个性化搜索是未来搜索技术发展的一个重要方向,是机器服务人类,人机和谐交互的一个重要发展。本文系统的研究了中文搜索引擎的工作原理、实现技术以及个性化模型。深入地分析了中文搜索引擎的核心技术:中文分词、机器爬虫、索引的建立与倒排序文件的生成、查询优化以及查询结果的排序等。通过对中文分词系统的改进,加入混合词典机制,提高了中文分词的准确性。分析Web信息挖掘技术与信息检索技术的关系,通过对用户使用中文搜索引擎的查询习惯、访问频率,浏览网页等信息资源进行挖掘,提取用户的使用特征以及兴趣爱好,建立用户的个性化兴趣模型。根据用户个性化兴趣模型,给出了一个个性化中文搜索引擎模型。旨在结合Web信息挖掘提高中文搜索引擎的查准率,为用户提供个性化的信息检索服务。本文所做的具体工作如下:(1)深入研究中文搜索引擎的核心技术实现细节:网页信息搜集、对搜集到的原始信息预处理、建立索引以及倒排文件、提供查询服务。(2)改进中文分词系统,提出一种实用的提高分词准确率的方法。(3)分析Web信息挖掘技术与信息检索技术的关系,研究用户个性化模型的建立与更新,提出基于对用户使用搜索引擎的行为和习惯等信息进行挖掘建立和更新用户个性模型的方法。(4)结合本文所做的研究,给出了一个个性化中文搜索引擎模型。

其他文献

基于物理的可控气体实时模拟的研究与实现

对自然现象的真实模拟,由于能够增添虚拟现实真实感,更好地烘托环境气氛,因此历来是人们在影视特技、广告、游戏中一种视觉要求。气体属于流体研究范畴,为了逼真地模拟真实世

学位

计算机图形学基于物理的流体动力学物理建模气体受控

基于SDN的按需资源优化分配系统的设计与实现

近些年来,随着网络的快速发展,传统网络的结构变得越来越臃肿,其弊端表现的越来越明显。一方面,传统网络设备的控制功能和报文转发功能是紧密集成的,这种方式极大地增加了网

学位

SDNOpenFlow网络虚拟化按需资源优化分配

多头拼接扫描仪图像处理及辅助调试系统

AO幅面平台彩色扫描仪使用多CCD头进行图像采集并通过图像拼接来完成对大幅面原稿的扫描。多头拼接扫描的机械结构,对扫描精度的影响很大,而高精度的多CCD头拼接调校又是一件

学位

多CCD扫描仪偏差测量数字图像处理辅助调试VC+MATLAB

基于生物调和序列的软件故障定位方法研究

在软件运行发生失效后,如何进行有效的故障定位是当今软件故障诊断领域的研究热点。虽然目前软件故障定位技术已有一定经验可以借鉴,但究竟如何做到将多种方法综合,以实现高

学位

故障定位序列比对运行序列生物调和序列

基于Hadoop的在线数据挖掘系统的设计与实现

分布式数据存储以及处理技术的发展,使得可较为廉价的从海量数据中发掘潜在价值。当前数据挖掘基础技术取得长足进展,基本满足了在多种场景下的需求。但当前系统间集成度低,

学位

数据挖掘Hadoop机器学习分布式计算

基于光子映射的虚拟场景全局光照算法研究

在计算机的虚拟场景中，全局光照明很好的为用户提供了物体的各种重要信息。例如，物体大小，表面颜色，阴影部分以及物体相互之间的位置关系等，在很大程度上提高了计算机生成图像的真

学位

全局光照虚拟场景光子映射光线跟踪光子图多叉平衡树

基于学习对象的网络学习内容管理方法的研究

随着网络、多媒体技术的快速发展,网络学习正逐渐成为重要的研究和应用领域,与之相适应的网络教育资源建设也日益受到人们的重视。但目前网络教育资源库大多处于孤立分散状态

学位

学习对象网络课程XML模式

虚拟群体模拟中的大规模场景简化技术

大规模群体动画一直是虚拟现实技术研究的热点之一。群体动画技术广泛应用于游戏、电影动漫、建筑规划以及火灾等灾难现场模拟与辅助指挥。通过群体行为的真实模拟,可以辅助

学位

群体动画实时渲染点采样层次细节模型层次实例化

在线手写体数学公式的分割与识别算法研究

模式识别研究的进程间接地推动了线上智能教育系统的发展。在针对数学学习的线上智能判卷这一应用中,由于答案有效的判分点往往在数学公式上,如何准确有效地识别出学生的手写

学位

模式识别数学语言字段分割机器学习特征抽取

基于Chord的P4P网络搜索模型研究

P4P网络全称“电信运营商主动参与P2P网络”,P2P过于强调“对等”,结点之间的交换完全是随机的,优先选择物理距离近的信息源,本地化文件片段交换就会使通信成本大大地降低,这

学位

P4P网络ChordiTracker三层结构

中文搜索引擎的个性化服务研究

其他学术论文