【摘 要】
:
随着互联网信息爆炸性增长,通用搜索引擎已经越来越难以满足人们日益增长的个性化需求。在面对专业搜索请求时,通用搜索引擎往往表现的力不从心。为了实现对特定行业的专、准
论文部分内容阅读
随着互联网信息爆炸性增长,通用搜索引擎已经越来越难以满足人们日益增长的个性化需求。在面对专业搜索请求时,通用搜索引擎往往表现的力不从心。为了实现对特定行业的专、准、精的搜索,垂直搜索引擎诞生了。首先,本文介绍了垂直搜索引擎的工作原理及相关技术。在了解Heritrix工作原理的基础上,运用基于链接标记数据的主题预测算法将Heritrix改造成主题网络蜘蛛,实现只抓取特定链接的目的;通过将Heritrix改造成多线程以增加系统的爬行效率。根据网络文学页面由动态模板生成的特点,实现对采集到的页面自动解析。其次,根据网络文学的现状确定系统的基本功能和性能要求,设计出系统总体框架图,并详细阐述了系统各个模块的功能、流程图;为了帮助用户更好的理解系统,特别绘制了系统功能交互图和用例图。在了解Lucene总体架构和索引技术的基础上,设计出系统的检索模块和索引模块。通过引入DirectHit算法、基于内容的页面相关度算法和作品重要性加分,对Lucene的原排序算法进行改进,提高系统的查准率。另外,在检索阶段,引入缓存以加快系统的检索速度。最后,对系统的查全率、查准率、检索时间进行测试,实验结果表明本系统是现实可行,具有实际应用价值。
其他文献
随着微博、微信等社交工具的普及,每个人都成为了社交网络信息的发布者及传播者,这些社交服务也因此积累了大量用户产生的数据信息,其中包括用户的个人档案、社交关系、文本
计算机和互联网的急速发展,尤其是移动互联网技术的广泛应用,彻底改变了人们获取和分享信息的方式,海量互联网信息满足用户对信息的多样需求,为用户提供了极大的支持和帮助。
近年来符号型数据的无监督学习在模式识别、机器学习、数据挖掘和知识发现等诸多领域,起着愈来愈重要的作用。为了有效地挖掘符号型数据内在的组结构信息,相关文献中已经发展
图像分割作为图像分析和识别的关键步骤,是图像低层处理到高层理解中不可或缺的过程。颜色作为图像的一个重要信息,在彩色图像分割的过程中起到关键的作用,而目前的彩色图像
随着网络的广泛应用,局域网内部的安全问题日益严峻。传统外部网关或防火墙技术能保证内部网络免受外部的入侵与攻击。但是,对于网络内部用户访问内网资源的安全性操作没有进
无线传感器网络作为一种新兴的信息获取系统,在探测、工业生产自动化、生态环境监测等方面,都具有非常广阔的应用前景。无线传感器网络中的节点具有体积小、成本低,而且具有
无线传感器网络,是集成了传感器技术、微电子技术、网络通信技术而形成的具有信息获取和信息处理功能的移动网络,它是多学科交叉的前沿研究课题,在军事、工业、医疗、交通和
随着信息时代的到来,科研工作者在研究过程中不可避免地会遇到大量的高维数据,如全球气候模型、人类基因分布、文本聚类中的词频等,所以经常会面临高维数据降维的问题。数据
自然人机交互是未来计算机的发展方向,最终目标是使计算机能看,能听,能说,会思考。文章研究的是用多个指示色标块作为交互媒介,摄像头作为输入设备的基于计算机视觉的人机交
运动人体的检测与跟踪是计算机视觉研究的一个重要领域,是对人体进行行为分析和理解的基础,其相关技术被广泛应用到人类的各个领域中。行人检测与跟踪主要有静止背景与运动背