【摘 要】
:
随着网络技术的发展和网络资源的增加,传统搜索引擎在返回结果杂乱、更新周期长以及查询歧义等方面的问题,越来越多的用户希望能够快速且有效地找到自己所需要的与特定领域主
论文部分内容阅读
随着网络技术的发展和网络资源的增加,传统搜索引擎在返回结果杂乱、更新周期长以及查询歧义等方面的问题,越来越多的用户希望能够快速且有效地找到自己所需要的与特定领域主题有关的信息,目前通用搜索引擎已经不能满足用户的专业化搜索需求。鉴于垂直搜索引擎具有专业化、目标化、效率高等特点,目前已成为当今研究的热点。Nutch是一个开源的搜索引擎系统,具有高透明度、排序结果公平、程序设置灵活、运行稳定等优点,因此选择Nutch平台作为研究的基础。本文首先介绍了垂直搜索引擎的研究现状,然后分析搜索引擎的基本工作原理以及开源搜索引擎Nutch的工作流程,接着对经典的排序模型和排序算法进行了研究,为后续排序算法的研究和改进奠定基础。本文通过分析Nutch现有排序算法存在的问题,提出了一种改进的网页评分排序算法。针对排序结果没有考虑到主题相关性的问题,本文提出使用LDA主题模型提取网页中心词,然后计算中心词与查询相关度,从而有效衡量查询query与文档的相关度。另外通过加入主题相关性得分改进PageRank算法使其适应于主题领域的应用场景。在上述研究工作的基础上,本文设计了一个旅游主题领域的垂直搜索引擎系统,分为数据采集、索引和检索三大模块。在数据采集模块,通过Nutch爬虫抓取网页然后对抓取到的不同格式的文档进行解析,在索引模块,首先构建旅游主题的主题词库,然后对数据采集模块采集的文本进行中文分词,通过LDA计算文本的主题相关度,最后对主题相关的网页建立索引。在搜索模块对改进的排序算法进行了实现。最后,通过TopN查准率和排序效果的对比,对改进后的系统的性能进行分析。
其他文献
Betatrophin是新近发现的分泌蛋白,其在小鼠肝脏、棕色脂肪以及白色脂肪等组织表达,而在人的肝脏组织中高效表达。目前,Betatrophin被认为是可以治疗甚至治愈糖尿病的潜在靶
核心素养理论对初中数学教学提出了新的要求,初中数学教师要将新的理论运用到教学中,改进数学课堂.文章联系教学实践,探讨了在核心素养理论指引下,初中数学分层教学的实施策
针对当前国内景观设计中普遍存在的地域文化特色缺失的问题,首先从理论角度出发,论述了地域文化与景观设计的含义以及它们之间的关系。在此基础上以甘肃省环县环江风情线景观
<正>2017年开年以来,钢铁行业效益见好,去产能效果逐步显现,但钢铁行业还没有从根本上走出困境,伴随着国家宏观经济政策的调整以及公司发展步伐的加快,钢铁企业资金依然紧张,
针对含时滞d的1关节气动人工肌肉(PAM)手臂,用三层递归神经网络(RNN),建立PAM手臂包含时滞的模型(即非线性Smith预估器),并超前d步预测PAM手臂的输出角度。将此超前d步的预测
本文结合实际案例,介绍了激电工作方法及测量参数的确定,重点分析了激电异常特征,推断了二条激电异常带,并初步确定了两个钻孔孔位.钻探验证结果表明,激电测量在该地区寻找铬
<正> Bachelier(1900)运用赌博的方法研究证券价格的特征,提出证券价格遵循随机游走,即布朗运动(Brownian Motion)。从此,对金融资产价格形成机制的研究成为整个金融学的焦点
目的:分析和处理15例DXI800全自动化学发光分析仪检测的肌钙蛋白I(c Tn I)假阳性结果,以降低假阳性率,提高检验结果的准确性。方法:用DXI800全自动化学发光分析仪进行c Tn I测定,
连平河河道污染严重,自然灾害频繁,严重影响周边人民的居住环境,亟待进行综合治理。根据河道自然水文地质条件和工程规模,对连平河支流治理工程施工组织设计及施工总布置方案
针对乙烯裂解气压缩机组低压缸处两个测点出现振动超过联锁值的大幅波动现象,通过趋势、频谱分析,排除仪表故障,找到了裂解气原料改变造成介质带液而引起振动波动的原因。