面向主题搜索引擎的若干关键技术的研究

来源 :沈阳建筑大学 | 被引量 : 0次 | 上传用户:zxh0532
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
现在的通用搜索引擎对信息采集方面由于网络上的信息量越来越多,想要找到更加详尽、精准的主题信息成为越来越困难的技术。随着面向主题搜索引擎的面世,使得这类情况有了良好的方法解决。面向主题搜索引擎在网络蜘蛛不断的检索时会不时的统计出正在检索的页面内容与所需题目的匹配值,用这个值来判断页面的题目匹配值,所以面向主题搜索引擎能够完成的规避掉很多与题目不匹配的噪声结果,只收集网络内和指定的主题所匹配的相关网页内容。综上,面向主题搜索引擎的速率、精准率和反馈率都明显优于通用的搜索引擎。由于检索出的信息数量大幅优化,面向主题搜索引擎的相关维护需求也随之减少,完全优于通用搜索引擎的系统的相关维护需求。此篇文章会先陈述面向主题检索程序的科研价值,之后会讲解通篇搜索Lucene架构下的面向主题检索程序的三个关键的重要技术:索引技术;搜索技术;分词技术。我们用面向主题搜索引擎与一般的搜索引擎的技术相互对比,以此来更加深入的探讨了面向主题搜索引擎所相关的若干关键的技术。重点研究角度参考如下三点:(1)探讨了通用搜索引擎运用的HITS算法策略,容易造成通道不够及主题漂移的现象,所以要优化此算法,可以达到规避主题产生相关漂移的问题,采用了对超链接的预判权重值优化值,达到并提高了对通道链接识别的精准性。(2)通用引擎在主题匹配度的识别策略中采用了向量空间的模型计算法,在判别时会提前认为文档内各个词条是彼此独立的,这当然和真实情况不符合,使之不能精准识别与需要主题的匹配度。此篇文章对此计算方法进行了相应优化使得文中每个相关的词条,根据其相关性授予不同的权重值,之后在主题匹配度识别的计算方法中考虑此权重使得计算方法得到精准的优化。(3)此篇文章设想了一种全新的结果去重计策并经过很多实验数据,对比数据可知新的计算方法在结果上取得了更加适合的优化结果。采用Java+Lucene的开放框架,优化后的计算方法来构建,得到了可在Tomcat服务器上执行的面向主题搜索引擎的系统。最后,展示了有关的运行,证明优化的计算方法有更优秀的效率,根据最终的数据结果表明,该优化计算方法具有适用能力以及应用能力。
其他文献
通信网络作为智能变电站的信息交互渠道,其性能优劣直接影响了智能变电站相关功能的可靠实现。基于IEC 61850通信规约,介绍了智能变电站对于通信网络的实时性要求。以D2-1型
随着社会经济的发展,国民生活水平得到不断提升,人们越发关注自身健康管理,以致于寻求更高品质的医疗服务成为社会大众的强烈需求。然而,过去以疾病控制为主的传统医疗服务方
我国的社会主要矛盾现今已发生了转变,即已经转化成为了人民日益增长的美好生活需要和不平衡不充分的发展之间的矛盾。作为国家和政府重大项目之一,社会心理服务的开展、社会
目的:提高对白色萎缩的认识,探讨其诊断依据和有效的治疗方法。方法:对2000年以来我院住院的10例白色萎缩患者的临床资料进行回顾性分析。结果:本病发病以中年以上女性居多,皮损好
随着军队改革纵深推进,部队建设呈现出许多新情况、新特点,如部队机关小部署散、官兵来源广成分杂、岗位专业多要求高、抓建静态少动态多等。在新的编制体制下,营一级要认清
尽管西部大开发战略、“一带一路”倡议、京津冀协同发展战略和长江经济带发展战略等的提出,使得中国经济总体发展效率飞速提升,但区域发展差距矛盾却日益加深,且在“胡焕庸线”两侧地区表现最突出。而人口又是影响区域发展差异的决定性因素,原因在于它不仅能反映一个地区的内部发展状况,更是破解新时代中国社会主要矛盾和促进区域协调发展的基础和前提。因此,深入研究胡焕庸线两侧人口密度的分布差异,具有重要的实践指导意义
测井曲线可以准确认识剩余油和确定井组连同关系,在石油、地质开发过程中有着广泛的应用。目前,测井曲线的绘制大都只能应用于单机或局域网,资源共享性差,并且数据格式单一。