基于Nutch的垂直搜索引擎研究与实现

来源 :南开大学 | 被引量 : 0次 | 上传用户:johnnywong
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
随着Web信息量的飞速增长,越来越多的人希望能够快速且有效地找到自己所需要的与特定领域主题有关的信息,目前通用搜索引擎(search engine)面临着空前的挑战。垂直搜索引擎(vertical search engine)由于仅仅采集用户指定的、与某一特定主题相关的信息,过滤不相关的信息,以构筑某一主题或学科领域的Web信息资源库为目标,并在查询结果排序时给予主题相关度高的网页更高的优先级,具有很高的实用价值和广阔的应用领域,因而成为目前网络信息检索领域的研究热点之一。   Nutch是一个开源(open source)的Web搜索引擎,它将尽自己最大的努力为用户提供最好的搜索结果。本文在Nutch平台上实现了中文分词插件,从而使Nutch具有中文信息处理能力。此外分析并研究了目前常用的主题相关度判别方法,在系统实现中采用了基于向量空间模型的主题相关度判别算法,并对该算法进行改进,加入元数据判别机制和重要标签所包含关键词的加权处理。分析了“隧道现象”的成因和目前的处理方式,在Nutch原有的爬虫部分源代码加入“隧道处理”机制,以处理主题网页分离的问题,并且修改了检索结果排序的源代码,在原有的基于链接相关度评分的基础上加入了根据页面主题相关度评分,使其更适应垂直搜索引擎的要求。最终本文实现了一个港口物流信息垂直搜索引擎,从而实现了各个港口物流信息的快捷查询和共享。实验结果表明这些改进提高了主题判别的准确度和效率,使信息的定位和查找更加的精确,减少了不相关信息的干扰,并提高了系统对于互联网复杂环境的处理能力,因此本文实现的系统具有很高的实用价值和研究意义。
其他文献
近几十年来,人脸识别技术已发展成为模式识别领域的一个研究热点,其在身份鉴别、档案管理、信用卡验证、人机交互等方面有着广泛的应用前景。人脸识别技术中一个关键难点在于如
随着互联网的高速发展与公众的自我表现意识提高,微博等自媒体平台应运而生。公众普遍喜欢通过微博等平台获取资讯、发现新鲜事,并发布评论来表达自己的观点。微博评论文本具
在高中思想政治课教学中渗透中华优秀传统文化的元素,并采用恰当的教学策略帮助学生明晰、认同、理解、掌握和内化中华优秀传统文化的内涵,有利于中华优秀文化的DNA植入学生
随着网络技术的发展,视频传输等流媒体技术得到了很大的发展,流媒体不同于其他数据类型的传送,要求高的带宽、低的时延和包丢失率。多网卡绑定(作为一种低廉的技术)可以提高
图像语义理解是计算机视觉领域中重要的研究方向之一,其研究成果可应用于机器人导航,无人驾驶,虚拟现实,图像检索等众多领域,具有重要的实用价值和学术研究意义。图像语义分
随着网络的快速发展和网络应用范围的不断扩大,网络正在影响社会的政治、经济、文化、军事和生活。为了共享和利用网络信息和资源,越来越多的个人、企业及政府部门将电脑连接
特征提取是人脸识别研究中的最基本问题之一。在这一研究领域,提出了许多经典的算法,如基于子空间的主分量分析方法,线性鉴别分析方法和独立成分分析方法等,以及在支持向量机
1月24日,康耐视公司宣布其获奖的视觉传感器产品系列中又新增Checker4G系列。康耐视的新型Checker 4G视觉传感器的设置同样强大且简单。Checker的重要特征有,可通过以太网
模式识别是人工智能领域研究的重要内容,而字符识别是模式识别的典型代表。传统的字符识别对象以平面为主,而曲面上的字符存在着很大的形变,其方向也难以确定,相比平面而言存
安装在井下进风巷道中的局部通风机,是服务于掘进生产的通风设备,具有供给新鲜风流,冲淡瓦斯和煤尘、吹散炮烟、调节气侯的功能。无论是正常生产还是交接班时间,都不准随意停开局