基于策略的网络信息提取技术的研究

来源 :电子科技大学 | 被引量 : 6次 | 上传用户:ulvme2000
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
进入信息时代之前,信息收集的研究就已有所发展。进入信息时代之后,信息资源得到了前所未有的重视。在某些应用领域中,信息资源的收集更是尤为重要。随着Internet互联网的快速发展,网络上信息资源的飞速增长,为信息的利用提供了便利条件。但是,随着网络信息资源越来越丰富,信息资源收集工作的工作量也是与日俱增。同时,网络上信息资源的无序性、分散性给收集工作带来了障碍。但通过信息提取就能将这些信息收集起来,格式化并存储,方便查询使用。本论文针对网络信息提取这一问题,以网络信息获取、文本信息提取相关技术为主要的研究对象,在深入分析网络搜索原理和信息提取技术的基础上,详细讨论和设计实现了一种网络信息提取软件。主要内容为:1.研究网络搜索原理和信息提取技术,提出了一种针对网页页面信息的网络信息提取的方法。该方法首先通过网络搜索中的网页爬虫技术从互联网获取网页页面信息,再对网页页面信息进行分析,根据用户设置的基于信息格式的提取策略,获取符合用户所期望的信息。2.研究网络爬虫技术,讨论分析了URL消重技术要点的工作原理;研究网页的表现方式、网页的传输协议(超文本传输协议)及网页的编写方式(超文本标记语言),结合成熟的正则表达式文本处理技术,实现对使用超文本标记的信息进行分析、提取;讨论分析商用搜索引擎的工作运行方式,提出了搜索引擎调用的方法。3.设计实现了一款基于策略的网络信息提取软件。软件以正则表达式为基础构建信息提取策略,对网页页面信息中符合提取策略的信息进行抽取;软件具备策略设置界面,策略可根据需要进行设置;软件实现网络爬虫的功能,可根据用户输入的起始URL地址开始网页抓取;软件还具备调用搜索引擎的能力,可根据用户输入的关键词访问搜索引擎,自动获取、分析搜索结果,通过这些搜索结果再开始网页抓取和信息提取。最后,对软件进行了功能、效能实验,验证软件是否达到预期要求,并就发现的问题进行了讨论并给出了改进措施。
其他文献
向量作为8个C级要求之一向来是区分考生能力的中坚担当,不出意外的是,在2019年的江苏高考中,向量问题出现在了第12题的位置,这是一个典型中档偏难题的位置.出现在这个位置的
了解蛋咖创业咖啡,是从朋友转来的一条微信开始的。朋友说:“你们不是正在做关于大学生创业的策划吗?可以去看看蛋咖。”于是,记者走进了蛋咖创业咖啡,见到了正在忙碌的小道。  小道,真名何亦航,蛋咖创业咖啡合伙人,圈内人都称他小道。  初见小道,说明来意,很快就切入了正题。因为,谈大学生创业,他不需要做任何准备。  “90后”创业者  这是一个“是金子会立即发光”的时代,很多创新型企业的发展路径超越了传
电子商务作为信息时代的产物,具有传统商业运营模式所无法企及的迅捷高效、成本低廉的巨大优势,电子商务的快速发展给各行各业的经营带来巨大的改变,也为其创造了许多例如。成为
对贫困地区学生降低录取分数,不是降低标准,而是综合评价其所处的教育环境、家庭环境做出的多元评价,是对其所处薄弱教育环境和贫困家庭环境的校正和补偿。  筑梦计划、自强计划、圆梦计划……近日,北京大学、清华大学等高校陆续发布2016年农村学生单独招生(高校专项计划)简章。今年,全国将有95所教育部直属高校和其他自主招生试点高校,共同承担高校专项计划,各校招生计划不少于本科招生规模的2%,录取标准可降至
随着社会和计算机信息化技术的发展,计算机已经逐渐渗透到我们各个行业和领域,这在教育行业显得尤为明显,近几十年出现了大量计算机辅助教学软件。另一方面,由于学习者个体的差异
目的:探讨免疫调节紊乱与转化生长因子-β1(TGF-β1)、补体应答基因-32(RGC-32)表达在大鼠IgA肾病肾纤维化的作用及白茅根多糖(RIP)治疗IgA肾病的机制。方法:①动物部分:50只大鼠随机