论文部分内容阅读
随着Internet的飞速发展,Web上的信息量越来越大,通用搜索引擎将面临信息采集、存储等方面更大的挑战。人们对通用搜索页面中的大量非目标源信息感到不满,开始对专业领域的搜索精确性产生了强烈的需求。同时,随着网络技术的迅猛发展,网络环境变得越来越复杂,信息安全问题愈发严峻,因此,设计一个专门针对信息安全领域的主题搜索引擎具有非常重要的意义。
本文首先阐述了搜索引擎的基本原理、所采用的相关技术,进而引出主题搜索引擎。然后对主题爬行技术进行了深入的研究,综合考虑提取固定数量文本和G.Pant基于HTML标签树结构提取链接上下文的方法后,提出了改进的G.Pant链接上下文提取算法,并探讨了如何将提取的上下文信息应用到网络蜘蛛中用来指导主题爬行的过程。
接着在给出该信息安全主题搜索引擎设计的指导原则后,对引擎进行了详细的分析设计并对系统进行了实现。该引擎采用前台和后台两部分设计,前台部分为显示程序,负责向用户呈现信息,后台负责对Internet进行网页抓取,并对所抓取的网页进行预处理后建立索引。
最后通过实验验证了改进的G.Pant链接上下文提取算法的有效性,以及该主题搜索引擎相对通用搜索引擎所具有的优势。
该信息安全主题搜索引擎经过测试,达到了预期的设计效果,对我国信息安全领域的发展具有一定的现实意义,同时也为其他相关项目的设计提供了参考。