个性化智能搜索引擎中查询扩展技术研究

来源 :哈尔滨工业大学 | 被引量 : 0次 | 上传用户:fugaowen
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
随着互联网的不断发展,网络信息量日益增加,面对海量的信息,人们对搜索引擎在查全率,查准率以及个性化方面的要求越来越高。查询扩展是个性化智能搜索引擎中的关键技术,它在搜索引擎检索用户查询前对用户查询进行扩展,有效地提高了搜索引擎的查全率和查准率。首先,我们对用户输入的查询关键词进行词义上的扩展。利用同义词词林和知网(HowNet)知识库进行词语相似度计算,找到与用户查询关键词相似度最大的词语进行关键词的同义词、近义词扩展,提高搜索引擎的查全率和查准率。其次,我们对用户输入的查询问句进行语义上的扩展。这一功能的实现由两部分组成,一方面进行问句关键词的提取和扩展,对问句进行去冗余,中文分词,词性标注,去停用词等一系列操作,提取出问句中包含用户核心语义的关键词或关键词集合,然后对取得的关键词进行关键词扩展;另一方面利用问句答案常用词对问句进行扩展,构建问句分类体系,对用户查询问句进行分类,同时利用问句答案语料库,统计每种类型的问句答案中常会出现的词,生成问句答案常用词词表,然后根据用户查询问句所属类别对问句进行答案常用词扩展;最终利用这两方面得到词语对用户查询问句进行扩展。然后,我们对用户浏览行为进行分析,挖掘用户兴趣。我们收集用户IE收藏夹中的网址和用户浏览历史记录,读取相应网页,提取网页正文,进行中文切词,生成文档集,然后使用基于TF-IDF的向量空间模型生成文档集对应的向量集,对向量集进行聚类,然后对聚类结果进行分析,提取用户兴趣代表词。最后,将查询扩展以及用户兴趣提取应用于个性化智能搜索引擎之中。首先对用户查询进行查询扩展,然后将扩展后的查询作为检索内容输入到搜索引擎的检索模块,并对检索模块返回的结果按照与用户兴趣的相符程度进行排序展示。
其他文献
随着医学成像技术的发展,越来越多的医学图像被应用到医务人员的诊断和治疗过程中。为了更加有效地管理和利用这些图像,研究人员开始关注医学图像聚类。本文首先介绍了医学图像
伴随着3G网络在全世界范围内的广泛部署和不断增长的用户数目,越来越多的业务种类以及越来越大的数据流量使3G网络不堪重负。在无线接入技术中,3G技术与Wi-Fi(Wireless Fidelity
随着互联网技术的不断发展,电子商务的不断兴起,BBS、博客、微博的不断涌现,商家与购买者的网上交互日趋频繁。越来越多的购买者在使用产品后,将产品的评论发表在网上,评论的数量
本文基于BIRIS(双边资源整合)的服务模式,构建一个车辆服务平台,平台收集社会上各式各样的闲置车辆,对车辆资源进行整合,满足客户的多种个性化需求,能充分利用车辆,并提供监控、调度
人机交互(Human-Computer Interaction,简写HCI)是指人与计算机之间进行信息交换过程。但是,由于受到距离以及设备的非便携性等因素,这些设备会增加用户的操作负荷,因此建立
随着信息处理技术和计算机网络的普及,Internet上的Web页面数量呈指数增长,为了快速、方便地处理这些信息,Web文本自动分类技术应运而生,并且已经成为信息检索和文本数据挖掘领域
随着网络信息技术的不断发展,面向在线事务处理(On-Line TransactionProcessing,OLTP)应用的服务系统广泛应用于商业银行、电信公司、证券交易所、航空公司等大型商业金融机构和
蚁群优化算法是一种新的模拟进化算法,具有正反馈、元启发式与分布式计算相结合的特点,其中正反馈有助于算法更快地发现较好解,元启发式特征有助于算法更容易地发现较好解,分布式
社会媒体是人们彼此之间用来分享意见、见解、经验和观点的工具和平台。微博(Micro-blogs)是通过某个社会媒体——如推特(Twitter)或新浪微博——分享的不超过140个字符的文
为了模拟一些在普通情况下无法获得或很难获得的实验数据,比如大型公共场所的踩踏拥挤事件等,需要能够精确地对真实场景中的群体运动进行建模。这些事故的发生本身具有不可预