基于增强型类PageRank算法的搜索引擎的研究与设计

来源 :武汉理工大学 | 被引量 : 2次 | 上传用户:panweilu
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
随着大数据时代的到来,不仅仅是整个互联网的信息量暴增,许多大中型互联网企业也拥有越来越多的数据。如何从成千上万的数据海洋中准确地使用户找到需要的信息是现在企业面临的一大难题。商用的搜索引擎不具有针对性,这使得企业需要开发自身的搜索引擎以便满足用户需求。从无到有开发和维护一个完整的搜索引擎是非常昂贵的。除了专门从事搜索引擎运营的公司(如Google、Baidu)之外,其他的互联网企业想要开发具备专业性能的搜索引擎是十分困难的。开源程式库Lucene很好地解决了开发企业内部搜索引擎的问题。然而开源的程式库是为了适应大多数站内搜索系统,缺乏个性化,并不能满足企业搜索系统的针对性。同时由于Lucene排序算法比较简单、忽视用户反馈、偏重旧网页等缺点,不能准确地满足用户的需求。为了帮助企业应对互联网环境的新挑战,开发一个能用于搜索较大数据库的搜索系统,同时保证用户能够得到友好的界面搜索体验和更加精确的查询结果,本文工作如下:(1)为了解决用户反馈问题,本文利用Lucene搭建搜索引擎的基本框架,类比PageRank算法采用链接作为网页重要性的评价指标,建立用户查询和网页点击率之间的联系,提出类PageRank算法(Similar Page Rank,SPR)。再针对专用系统对实时性和用户兴趣度反馈的要求,在算法中添加时间函数和用户兴趣度函数,得到增强型类PageRank算法(Enhanced Similar Page Rank,ESPR)。(2)在新算法的基础上对整个系统进行完整的原理分析,详细阐述了ESPR算法嵌入到系统中的过程。首先重新定义了分词之后索引结构图,直观的说明了对整个索引结构做出的调整。然后结合Lucene原有的语法分析方式完整地推导出搜索索引过程中ESPR算法的打分公式。(3)根据对各个模块的原理分析,通过编程实现了基于增强型类PageRank算法的搜索引擎。Lucene具有良好的封装性和继承性,可以在自定义打分模块中实现对程序的修改。由算法导致的索引结构变化也可以在相应的模块中重新定义。(4)将本文的搜索引擎和其它两类搜索引擎进行查准率性能比较。通过5人技术小组综合评定三个搜索引擎单个查询和多组查询效果。实验结果表明不管是单个查询返回的结果还是多组查询返回的结果,本文的搜索引擎均拥有更高的查准率。基于ESPR算法的搜索引擎成本低、准确率高、针对性强,因此可用于大中型互联网企业提供适合企业自身信息特点的精确搜索服务。除此之外,拥有海量数据的传统企业进军互联网时也非常适合采用本文的搜索引擎为网站提供搜索服务。
其他文献
为移动用户提供多种业务服务是未来移动通信网络的发展方向。由于CDMA技术具有灵活支持多种业务的特点,因而被未来移动通信系统所采纳。在CDMA系统中,每一个接入的用户对其它用
OFDM(正交频分复用)作为一种频谱利用率较高的技术,越来越受到人们的关注。本文研究基于导频的OFDM信道估计算法及其在单天线及多天线系统下的应用。 论文首先介绍了无线衰
随着技术水平的不断提高,我们的电视机系统正经历着由模拟向数字过渡的关键时刻,这被认为是在由黑白到彩色过渡后的电视机系统的第二次技术革命。毫无疑问,未来的电视机系统
医学超声成像技术与计算机CT断层造影术、MRI磁共振成像、核医学成像并称为现代四大医学影像技术,其中超声成像由于其独具的实时性、无损性、廉价性、可重复性好、灵敏度高等
语音信号处理在现代信息社会中占有重要的地位。但语音信号常常会受到如冲激噪声、周期噪声、宽带噪声和传输噪声等的干扰和房间混响的影响,使得各种语音信号处理方法的有效
网络管理及网络安全对任何网络都是必须考虑的,相应的这方面的设备也就成为当前研究的热点。本文介绍了作者在研究生学习期间就网络管理及网络安全所做的研发工作——电信网管
模式识别是信号与信息处理的一个重要应用领域,随着人工智能在50年代的兴起,模式识别的发展更为迅速,应用更为广泛。它所研究的理论和方法在很多科学和技术领域中得到了广泛的重
飞涨的油价、短缺的石油供应和日益严峻的环境污染,让一直都以传统化石能源为主要能源的人们,逐渐意识到开发和使用可再生清洁能源的重要性。以二次电池为主要动力的新能源汽车
本文提出了一种改进的免疫算法,对蜂窝网络无线定位估计中的非线性优化问题进行求解。在设计记忆库规模的时候,引入了帕累托法则,并使记忆库里的个体跟父代群体一起参加生存
近年来,无人机遥感系统由于其机动灵活、成本低、分辨率高、便于高危地区探测等优点,已广泛应用于军事侦察、自然灾害监测与评估和土地利用调查等国防国民应用领域。无人机影像几何处理的关键问题在于明确无人机影像像平面坐标与地面坐标系之间的数学关系,以便对无人机影像进行三维空间地理信息提取。然而,无人机遥感影像具有姿态不稳定、像幅小、数量多等特点,传统航空摄影测量的方法往往无法进行。如何解决这一难题,这是目前