【摘 要】
:
从互联网诞生的那天起,信息量每日都在快速增长,搜索引擎是用户在海量数据中快速准确的寻找需要数据的最常用途径。随着网民数量的不断增长,特别是Web2.0技术的发展,互联网信
论文部分内容阅读
从互联网诞生的那天起,信息量每日都在快速增长,搜索引擎是用户在海量数据中快速准确的寻找需要数据的最常用途径。随着网民数量的不断增长,特别是Web2.0技术的发展,互联网信息成爆炸式扩充,人们对搜索引擎的需求和有用知识的难以获取的矛盾日益突出。查询词扩展技术就是为了帮助用户构造能清楚地表达查询意图的查询表达式,进而优化搜索引擎的查询结果,节约用户的查询时间,提高查询精度。 本文主要研究 Lucene和GVSM如何应用在查询词扩展系统上,并利用OHSUMED数据集进行相关实验,主要研究工作包括以下几点: (1)在传统信息检索平台的基础上,本文引入了二次检索的过程:通过用户和系统交互构造新查询串,重新在目标语料集中进行检索。 (2)对Lucene扩展算法的改进。Lucene能够方便快捷地建立索引,并实现指定域的查询。本文为OHSUMED数据建立索引,对初次检索结果使用改进的ROCCHIO反馈方式实现查询词扩展,然后依用户行为构造二次检索的查询条件。 (3)用GVSM实现查询词扩展算法并进行改进。GVSM是一种典型的向量空间模型,本文采用GVSM结合人工构造的扩展词表实现一种查询词扩展算法,对模型中权重、相似度计算公式进行调整,取得了较好的效果。 (4)改进传统的信息检索评价指标。结合 OHSUMED数据的三级相关类标构造合理的评价准则,筛选合适的Query进行查询扩展,验证算法的有效性。 基于上述研究成果,本文设计并实现了基于 Lucene全文检索系统和GVSM模型的查询词扩展系统,该系统包括数据预处理模块、索引模块、检索模块、查询词扩展模块、二次检索模块等,为进行相关实验和研究提供了一个基础平台。本文针对OHSUMED数据集进行实验,F值最高提高100%以上,平均提高15%左右。
其他文献
随着全球信息化进程的推进,无线射频识别(Radio Frequency Identification)技术已经在各个领域得到广泛应用,包括物流、交通运输、医疗保健、工业、 商业、金融、海关及政
随着互联网时代的到来,信息在传播途径上发生了翻天覆地的变化,人们可以轻易的从网络上下载海量数据,文本聚类作为一种有效的文本组织手段,可以帮助人们发现网路上热点的问题
近年来,搜索技术的发展推进了以搜索为基础的在线问答系统的出现,以及更高级的交互式问答系统在各个领域的应用。交互式问答系统是指人与系统之间能够用自然语言的形式,进行
移动设备中的实时手势控制方法研究,主要是通过文中提出的“基于运动肤色的混合模型”从实时视频信息中确定手势区域、提取手势对象,并通过数字图像的相关操作,优化提取到的
随着Internet的高速发展,互联网信息量变得越来越庞大并保持高速增长。同时,互联网的用户规模也快速的增加,网民需要一种有效的工具快速的获取信息。搜索引擎作为海量信息获
无线 Mesh网(Wireless Mesh Network, WMN)是一种融合了无线局域网(WLAN)和无线Ad hoc网络两者优势的新型网络,WMN具有动态拓扑、自组织、自愈合、多跳传输等众多优点,被认为
随着虚拟现实技术与真实感渲染技术的日渐成熟,在社会的各个领域已变得不可或缺,尤其给人们的日常生活带来巨大的变化,接踵而来的是日益增加的相关研究需求。沙画表演是21世纪开
教育信息化是国家信息化建设的重要基础,教师则是教育信息化的中坚力量。随着教育信息化的推进,教师教研的方式也随之改变。“网络教研”已成为当前教师参与教研活动的首要方
无线传感器网络(Wireless Sensor Network,WSN)可靠性是保障网络正常工作的前提,是提高网络性能的基础。WSN可靠性不仅是网络设计的关键指标,同时也是保障网络正常运行和管理
近年来,智能规划已经成为人工智能的研究热点,可能性规划作为不确定规划的一种,由于能够定性的刻画现实世界中的不确定性,更适合于求解现实世界中的规划问题,而逐渐得到人们