Web信息智能抽取技术的研究与实现

来源 :电子科技大学 | 被引量 : 0次 | 上传用户:zengbiao2010
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
随着我国经济的迅速发展,国家信息基础设施建设强度加大加强和人民生活质量的提高,网络已经深入人们生活的方方面面,成为工作或生活中不可缺少的一部分,怎样快速有效的获取Web上的信息,已经成为了一个重要的研究课题。但是网络上的信息种类繁多、网页结构形式多变,大多数网页上还包含了许多广告、导航、热点链接等噪音信息,这些问题给研究者带来了很大的困扰。而目前的信息抽取技术还存在很多不足:如仅能处理一种类型网页,提取的信息细化程度低,准确率与效率矛盾、人工干预与智能化操作、不支持增量信息处理等问题。这就迫切需要一种全新的信息提取方法来解决这些问题,本课题就是在这种需求下产生的。本文主要采用的是模板化的信息提取算法,先利用规则生成器识别网页上的目标实体分隔符,然后由模板生成器把这些分割标记配置到模板中,最后由信息抽取器根据模板提取该站点的相关信息。具体创新点或关键技术如下:1、通过分析的站点网页结构,分析网页结构布局形式和标签的分布规律,并结合目前国内外的信息抽取技术,发明了一套可以定义任何网页结构形式的模板,并设计出了一套模板自动配置方案;2、设计了信息抽取器:实现了读取模板,以及根据模板配置进行信息抽取的方法,并在此过程中增加了信息增量/多页处理算法:采用增量/多页算法来解决同一主题的内容分布在多个网页的问题,即需要进行融合计算,以及解决不同时间段,主题网页内容动态更新的问题,即要进行增量提取;去重处理算法:处理站点间相似或相同主题重复问题;3、结果的结构化存储:根据模板的配置,提取相关的信息,并采用结构化的形式进行保存;设计一个可动态扩展的信息提取系统:根据不同的需要,动态配置模板,不需要更改代码。本文在理论上提出了一套依据模板能自动提取各种类型网页的信息抽取方案,并开发了相应的系统IWIES。实践结果证明,本方案相对于常见的Web信息抽取技术方法具有更好的提取速度以及更高的准确率、召回率。
其他文献
半球谐振子频率裂解与固有刚度轴方位角是影响陀螺性能指标的核心因素。提出了一种基于幅频响应特性的半球谐振子频率裂解与固有刚度轴方位角测定方法,采用压电激振台扫频激
目的:探讨益生菌在重度急性胰腺炎(severeacutepancreatitis,SAP)治疗中的作用.方法:将39例SAP患者随机分为对照组和治疗组,治疗组患者通过空肠营养管注入益生菌;对照组给予安慰剂(淀
晚清闽中词人刘家谋一生交游广泛,与张际亮、谢章铤、黄宗彝的交游唱和,激发其词之创作,亦影响闽中地区词学之发展。对刘家谋遗籍《斫剑词》的考述,有益于深入了解刘家谋其人
运用问卷调查、数理统计和数学建模等方法,构建上海市公务员体质健康风险预警模型,在对样本数据聚类和分层的基础上进行群体偏移度和个体偏移度表达。结果显示:公务员体质健康
[摘 要] 在医院的各项管理工作中,人力资源管理是一项十分重要的内容,而绩效考核又是人力资源管理中的关键一环,其能否得到有效运用,将直接关系到医院人力资源管理的成败。所以本文主要就绩效考核在医院人力资源管理中的有效运用展开探索。  [关键词] 绩效考核;医院;人力资源管理;运用  doi : 10 . 3969 / j . issn . 1673 - 0194 . 2020. 19. 051  
针对传统单晶硅材料热胀系数不稳定引起的硅基环形振动微陀螺的温度漂移问题,开展了玻璃基环形振动微陀螺谐振子的设计,并提出了一种新型的玻璃基准三维微结构制造工艺,借助
2020年9月6日,第19届全国人造板工业发展研讨会圆满落幕。此次会议以“疫情对全球市场冲击与人造板工业突围发展”为主题,吸引了来自全国各地的近500余人参会。会议分为三个阶段:开幕式、第一阶段主题报告,第二阶段两个分会场报告以及第三阶段精彩八分钟论坛。演讲内容丰富多彩,紧扣主题,为疫情之后的人造板行业注入了活力,指明了方向。  第一阶段会议由中国林业机械协会秘书长韦剑主持,中国福马机械集团有限公
近日,中共中央、国务院印发《深化新时代教育评价改革总体方案》。这是新中国第一个关于教育评价系统改革的文件,也是指导深化新时代教育评价改革的纲领性文件。方案的发布对
为了寻找诊断、鉴别IgA肾病(IgAN)和膜性肾病(MN)的血液特异性标记物,利用公共数据库中的IgAN和MN患者的外周血单核细胞(PBMCs)的转录组表达谱数据集识别特异性生物标记物,为