论文部分内容阅读
进入信息时代之前,信息收集的研究就已有所发展。进入信息时代之后,信息资源得到了前所未有的重视。在某些应用领域中,信息资源的收集更是尤为重要。随着Internet互联网的快速发展,网络上信息资源的飞速增长,为信息的利用提供了便利条件。但是,随着网络信息资源越来越丰富,信息资源收集工作的工作量也是与日俱增。同时,网络上信息资源的无序性、分散性给收集工作带来了障碍。但通过信息提取就能将这些信息收集起来,格式化并存储,方便查询使用。本论文针对网络信息提取这一问题,以网络信息获取、文本信息提取相关技术为主要的研究对象,在深入分析网络搜索原理和信息提取技术的基础上,详细讨论和设计实现了一种网络信息提取软件。主要内容为:1.研究网络搜索原理和信息提取技术,提出了一种针对网页页面信息的网络信息提取的方法。该方法首先通过网络搜索中的网页爬虫技术从互联网获取网页页面信息,再对网页页面信息进行分析,根据用户设置的基于信息格式的提取策略,获取符合用户所期望的信息。2.研究网络爬虫技术,讨论分析了URL消重技术要点的工作原理;研究网页的表现方式、网页的传输协议(超文本传输协议)及网页的编写方式(超文本标记语言),结合成熟的正则表达式文本处理技术,实现对使用超文本标记的信息进行分析、提取;讨论分析商用搜索引擎的工作运行方式,提出了搜索引擎调用的方法。3.设计实现了一款基于策略的网络信息提取软件。软件以正则表达式为基础构建信息提取策略,对网页页面信息中符合提取策略的信息进行抽取;软件具备策略设置界面,策略可根据需要进行设置;软件实现网络爬虫的功能,可根据用户输入的起始URL地址开始网页抓取;软件还具备调用搜索引擎的能力,可根据用户输入的关键词访问搜索引擎,自动获取、分析搜索结果,通过这些搜索结果再开始网页抓取和信息提取。最后,对软件进行了功能、效能实验,验证软件是否达到预期要求,并就发现的问题进行了讨论并给出了改进措施。