信息安全主题搜索引擎的设计与实现

来源 :南开大学 | 被引量 : 0次 | 上传用户:zhanlei753
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
随着Internet的飞速发展,Web上的信息量越来越大,通用搜索引擎将面临信息采集、存储等方面更大的挑战。人们对通用搜索页面中的大量非目标源信息感到不满,开始对专业领域的搜索精确性产生了强烈的需求。同时,随着网络技术的迅猛发展,网络环境变得越来越复杂,信息安全问题愈发严峻,因此,设计一个专门针对信息安全领域的主题搜索引擎具有非常重要的意义。   本文首先阐述了搜索引擎的基本原理、所采用的相关技术,进而引出主题搜索引擎。然后对主题爬行技术进行了深入的研究,综合考虑提取固定数量文本和G.Pant基于HTML标签树结构提取链接上下文的方法后,提出了改进的G.Pant链接上下文提取算法,并探讨了如何将提取的上下文信息应用到网络蜘蛛中用来指导主题爬行的过程。   接着在给出该信息安全主题搜索引擎设计的指导原则后,对引擎进行了详细的分析设计并对系统进行了实现。该引擎采用前台和后台两部分设计,前台部分为显示程序,负责向用户呈现信息,后台负责对Internet进行网页抓取,并对所抓取的网页进行预处理后建立索引。   最后通过实验验证了改进的G.Pant链接上下文提取算法的有效性,以及该主题搜索引擎相对通用搜索引擎所具有的优势。   该信息安全主题搜索引擎经过测试,达到了预期的设计效果,对我国信息安全领域的发展具有一定的现实意义,同时也为其他相关项目的设计提供了参考。
其他文献
压力和温度测试是油田油(气)井开采工作的重要工艺之一,它为制定油(气)井的生产制度、确定油(气)井的产量及检测油(气)井完井情况提供可靠、准确的资料[9]。尤其是2008年以来,随着我国
随着经济的不断发展和交通量的持续增长,自主驾驶与辅助导航逐渐成为目前智能车辆领域的一个热点。作为一个集环境感知、规划决策、自动驾驶等多种功能于一体的综合系统,智能车
我国电力工业正处于高速发展时期,电网的规模日渐庞大,“重负荷、弱联系、快速励磁、低阻尼”的情况日趋明显。这使得当今的电力系统成了一个极其复杂的强非线性系统,它时常表现出如状态变量和模式交互作用等非线性现象。而这些非线性作用已成为影响系统稳定性的重要因素。传统的线性化分析方法,即使是全模型数值仿真,都很难计及系统内部非线性动态结构信息,并揭示这些非线性奇异现象的实质。目前,研究这类非线性的理论依据主
轿车前桥轮毂的机械加工质量是保证轿车性能的一个重要因素,前轮毂加工过程中的一个重要问题就是如何控制轮毂轴颈的直径大小和圆度等形位误差。目前,采用机械卡板或气动卡规的
SERCOS作为一种国际标准现场总线,适用于工业机械电气设备的控制器与数字伺服装置、IO等设备单元之间实现高速数据通信,具有适用性强、扩展容易、软硬件资源丰富、数据实时传输
信息检索技术在网络信息资源爆炸性增长的时代显得尤为重要,如今从大量的网络信息当中搜索出符合用户需求的信息变得越来越困难。目前传统的搜索引擎利用基于字符串匹配的关键
随着国民经济的快速增长和中国汽车工业的迅猛发展,消费者对汽车娱乐电子产品的需求也与日俱增,这极大地促进了车载娱乐电子产品的发展,而集影音娱乐、GPS导航、游戏、无线上网
切换系统(Switched SyStems)是混杂系统中重要的分支之一,本质上是一类非线性系统。切换系统可以看成是将非线性系统分成若干个线性子系统,通过切换控制规律在各个子系统之间
目前,电信、移动、联通通讯基站数量庞大。通讯基站内存放着大量精密通讯设备,这些设备对基站内部环境要求较高,需要恒温、恒湿、恒压、低噪声、低粉尘环境。基站一般安置在
基于生物特征的身份鉴别技术是国内外专家研究的热点,而指纹识别技术是生物特征识别技术中应用最为广泛的技术之一。传统的身份认证方法,像密码、身份证和钥匙等,在安全性和便捷