Web信息抽取系统的设计与实现

被引量 : 0次 | 上传用户:langcy
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
当前Web上承载的海量信息,使得它变成了人们日常生活中获取信息的一个重要源头。探索一种方便人们从万维网的海量信息中挖掘出自己所需要的内容的方法变得越来越重要。Web信息抽取就是众多方法中的一个有效解决方案。本课题来自于阿里巴巴(中国)网络技术有限公司搜索平台部内容系统组的实际需求。本课题所研究的内容是,从Web信息抽取应用领域出发,通过基于抽取对象和Web页面结构的特点,分析了系统需要解决的信息抽取问题;并且针对这些问题,分别提出了有针对性的抽取解决方案。基于这些抽取方案,本课题设计和实现一个能够从万维网中抽取用户需要信息的Web信息抽取系统。在完成本课题的过程中,作者分析了Web信息抽取解决的问题,定义了典型的信息抽取目标;并以此为基础阐述了一种表示Web网页内容中结构化信息的数据模型。作者进行了系统业务场景的应用描述,并以此归纳成为系统的基本需求,依据软件开发生命周期,依次从需求分析、系统设计和实现以及系统测试这几个方面,详细介绍了课题系统的设计和实现。在此过程中,本文使用用例模型分析和总结了系统的功能性需求。然后,以此模型为基础设计了整个系统的功能模块和系统体系结构。作为这一部分的核心,针对系统抽取任务工作引擎和Http服务器框架这两个组件的设计和实现,本文借助类图、时序图、流程图模型对它们进行了重点的介绍。另外,本文也对系统中使用的几种Web信息抽取算法,如基于模板信息抽取算法、列表信息抽取算法的思想和实现做了详细介绍,并且进行了一定的算法分析和评价。最后,通过系统测试和算法测评证明了系统可以满足预先定义的需求。
其他文献
预设不仅是语义、语用层面的语言现象,更是依靠语境和话语参与者对对方的心理、认知状态的相互假定,而被掌握并运用到话语的理解与生成之中去的一种修辞现象。在对文本的解读
钢琴诞生于18世纪的欧洲,迄今为止,已有300多年发展历史,但直到20世纪才得以在全球流行开来。较之于西方国家,我国的钢琴音乐教育,虽然起步较晚,但目前已取得了一定的成就。
为建立一种QuEChERS预处理样品,气相色谱质谱联用技术测定草莓中嘧菌环胺的分析方法,采用乙腈提取草莓中的嘧菌环胺,提取液经无水硫酸镁、无水醋酸钠、N-丙基乙二胺(PSA)和十八
金融行业是一个高风险行业,金融风险伴随着金融制度建立与发展而存在,而越来越多的案件与风险事件的发生,彰显了风险内控在银行经营发展中的重要性。运营部门作为“三道防线
针对强化学习中探索和利用之间的平衡控制问题,提出了一种基于信息熵的强化学习算法。该算法利用信息熵的概念,定义了一种新的状态重要性测度,度量了状态与目标之间的关联程
本文首先介绍了PON技术的发展历程,对GPON技术产生的背景做了扼要的叙述,并对GPON技术产生之前出现的APON和EPON技术做了简要的介绍,同时对比这两种技术说明了GPON相对于这两
本文论述了在大数据的环境下,深度学习模型和多源异构影像数据融合问题,在数据融合的基本架构基础上,改进了一种泛化性强得多源异构影像数据融合的深度学习模型,探索将深度学
集中供热系统一般由供热热源、输送管网和热用户三部分组成。我国在推进建筑节能的过程中,由于缺乏对供热系统的综合考虑,忽视了锅炉房、输送管网的节能,造成了节能建筑的供热耗
本文在模拟实验的基础上进行了生物反应器填埋场渗滤液控制技术的相关研究工作,首先通过模拟生物反应器填埋场实验研究了滤液回灌、回灌时调节渗滤液的pH值、回灌前对渗滤液进
在国家西部大开发的浪潮中,奎屯市和乌苏市逐步开展区域经济规划建设。各电信运营商在经济规划区域内开展通信管网的建设,考虑到通信技术的发展趋势、一次性投资成本、长远网